Approche bimodale du traitement automatique de la parole : Application à la reconnaissance du message et du locuteur.

Résumé:

Ces travaux constituent une étude sur la possibilité d’intégrer les informations visuelles constituées par le mouvement et la forme des lèvres dans les systèmes de traitement automatique de la parole.

Les différentes approches et méthodes relatives à cette problématique sont abordées d’une facon théorique et expérimentale. Une description technique des phénomènes d’asynchronie (ou d’indépendance temporelle) présents dans cette source d’information bimodale est tout d’abord établie. Différentes manières de gérer ces phénomènes dans les systèmes de reconnaissance de la parole sont étudiées et comparées. Nous définissons alors une nouvelle approche fondée sur un produit d’automates à transitions valuées. En outre, la combinaison de deux modalités, qui peuvent avoir des niveaux de fiabilité totalement différents, pose un certain nombre de problèmes relatifs à la pondération. Nous étudions donc les divers critères et méthodes permettant de trouver une pondération optimale.

Il est également fait état de différentes expérimentations effectuées dans le domaine du traitement de la parole acoustico-labiale. Nos propres expérimentations dans le domaine de la reconnaissance de la parole bimodale et dans le projet AMIBE financé par le CNRS sont décrites. Les résultats des nouvelles méthodes developpées dans ces travaux sont également présentés.

Enfin, nous abordons également le domaine de la vérication d’identité acoustico-labiale. Nous présentons les résultats obtenus par le système que avons realisé en collaboration avec l’IDIAP dans le cadre du projet européen M2VTS (programme ACTS). Ces expérimentations furent parmi les toutes premières realisées dans le domaine de la reconnaissance et vérification acoustico-labiale du locuteur.