Un outil informatique de gestion de modèles de Markov cachés : experimentations en reconnaissance automatique de la parole.

Résumé:

Il y a quelques années, la recherche en Reconnaissance Automatique de la Parole (RAP) était considérée par le grand public comme un aimable passe-temps où l’on ne se préoccupait que de problèmes sans fondement réel. Aujourd’hui les temps ont changés, les enfants ne s’étonnent plus de voir Goldorak commander à la voix son vaisseau spatial ou de regarder Deckard réaliser vocalement un agrandissement polaroïd en sirotant un gin dans « Blade Runner ». L’honnête homme est tout de même troublé par les performances des systèmes de reconnaissance actuels ayant quelques difficultés à réaliser correctement quelque chose d’aussi trivial que de reconnaître sa voix, à l’heure où l’informatique triomphe dans les calculs sur des milliards de données avec des résultats spectaculaires. S’il reste en effet un domaine où la réalité a du mal à dépasser la fiction, celui-ci risque fort d’être la Reconnaissance Automatique de la Parole.

L’enregistrement du signal lui-même ne suffit pas à identifier les prononciations étant donné l’extrême variabilité du signal due aux locuteurs et au milieu environnant. La solution idéale réside dans une représentation adéquate du signal et l’élaboration d’un réel système de reconnaissance indépendant du vocabulaire et du locuteur. A l’heure actuelle, les modules classiques de reconnaissance de la parole les plus efficaces utilisent une approche statistique et plus particulièrement des Modèles de Markov Cachés ( MMC ). Il en existe une grande diversité car leur utilisation est très dépendante de l’application à laquelle ils sont destinés, les recherches autour de ces modèles sont nombreuses, chacune apportant sa « pierre ». Mais néanmoins, comme nous le verrons au cours du premier chapitre de ce manuscrit, le système idéal n’existe pas et les études en reconnaissance automatique de parole donnent l’impression de piétiner. Il semble que pour surpasser les performances actuelles, il faille faire preuve d’idées originales et d’audace. Certains chercheurs le montrent en voulant introduire de nouveaux paramètres (prosodie), de nouveaux modèles (modèles articulatoires, modèles dynamiques, fusion de données). Posséder un outil suffisamment souple permettant d’accéder à ces différents niveaux d’abstraction, est un réel besoin en recherche fondamentale sur la reconnaissance automatique de la parole. Afin d’apporter une aide dans la conception de systèmes de reconnaissance fondés sur la notion de réseau probabilisé, nous avons conçu un outil permettant de compiler des réseaux multi-niveaux à partir d’un langage de compilation simple et contenant le moins de contraintes possible. La compilation permet l’assemblage de réseaux élémentaires, ce qui permet à l’utilisateur de décomposer la réalisation de ses modèles. La conception de modèles complexes peut alors s’avérer être plus simple et plus claire. Cet outil est modulable et rapidement adaptable à de nouveaux besoins sans pour cela être expert en informatique. Nous avons réalisé quelques applications dans le cadre de la reconnaissance automatique de parole afin d’évaluer cet outil informatique.

Ce manuscrit s’articule autour de trois principaux chapitres :

-Dans un premier chapitre, nous présentons les principales méthodes utilisées en reconnaissance automatique de la parole. Nous nous penchons plus précisément sur les applications les plus répandues faisant intervenir des Modèles de Markov Cachés. Cette introduction est suivie d’une description succincte de quelques systèmes représentatifs dans ces diverses applications. L’examen de ces bases ainsi que des extensions apportées récemment aux Modèles de Markov Cachés, nous a conduit à définir le cahier des charges de notre outil informatique.

-Dans le deuxième chapitre, la description de l’outil informatique est présentée. Nous expliquons comment générer des MMC allant de réseaux élémentaires à des réseaux multi-niveaux. Nous montrons comment intégrer des règles phonologiques, des lois multi-gaussiennes et/ou des multi-modèles à un réseau global. Nous finissons la présentation du compilateur en décrivant la structure modulaire des réseaux générés et les fonctions d’apprentissage et de reconnaissance adaptées à cette structure.

-Au cours du chapitre trois, sont développées les applications réalisées avec le compilateur de réseaux afin de valider notre outil informatique :

-Une application classique de filtrage lexical, dans le cadre de la RAP, dans lequel nous développons un algorithme de reconnaissance en deux étapes : un sous-dictionnaire est d’abord sélectionné en utilisant comme unités de base d’un MMC global, les classes majeures. Au cours de la deuxième étape, un MMC classique modélisant les mots du sous-dictionnaire à partir d’unités de type pseudo-diphone, est construit afin d’effectuer la recherche du mot inconnu. Nous nous sommes attachés à détailler le mode de construction des MMC utilisés. Nous exposons ensuite les résultats obtenus en fonction de la complexité des modèles employés.

-Une variante d’utilisation des Modèles de Markov Cachés afin d’étudier la faisabilité d’implémentation d’extensions à partir de notre outil : nous avons adapté le compilateur afin qu’il réalise la conception d’un MMC équivalent à un modèle parallèle de type Maître-Esclave. Ce modèle permet l’intégration de paramètres labiaux dans un système de reconnaissance acoustique. Nous comparons cette approche avec une approche classique par un MMC global où les vecteurs d’observations sont la concaténation des vecteurs acoustiques et des vecteurs labiaux. Nous détaillons les modifications apportées au compilateur pour la construction du modèle Maître/Esclave et exposons les résultats obtenus dans le cadre du projet AMIBE.

-Une application où le compilateur est utilisé comme outil de vérification : la validation d’un système de Décodage Acoustico-Phonétique (DAP) à partir d’unités phonétiques issues d’une quantification vectorielle.

-Une dernière application où l’on teste la compatibilité des réseaux ainsi construits avec un autre système : une proposition de post-traitement parmi les N-meilleures solutions trouvées par un traitement principal développé au CNET.

-Le quatrième et dernier chapitre conclut ce document en développant les extensions possibles du compilateur de réseaux. Nous discutons des algorithmes d’apprentissage et de reconnaissance adaptés à des modèles présentés dans le chapitre un. Nous nous penchons plus précisément sur les modèles traitant les observations sur plusieurs niveaux et à des échelles de temps différentes.