Modélisation du langage pour les systèmes de reconnaissance de la parole destinés aux grands vocabulaires : application à MAUD

Résumé:

Le traitement automatique de la parole suscite actuellement un grand intérêt ; il est considéré comme une branche importante de l’interaction homme-machine. En effet, nous éprouvons le besoin de communiquer avec nos ordinateurs, de la façon la plus naturelle et la plus directe qui soit : le langage parlé ; l’interaction et l’échange d’informations s’en trouvent grandement facilités. Le marché des logiciels offre aujourd’hui des produits qui prétendent effectuer une reconnaissance de la parole continue avec un vocabulaire important. En réalité, les performances de ces systèmes sont encore largement inférieures à celles de l’être humain, particulièrement au niveau de la modélisation du langage.

Le travail que nous présentons dans ce manuscrit s’inscrit dans le cadre de la modélisation du langage pour les systèmes de reconnaissance de la parole continue destinés aux grands vocabulaires. Nous proposons de nouveaux modèles fondés sur des séquences de mots de longueur variable. Ces séquences représentent des structures langagières qui s’apparentent à des syntagmes linguistiques. Elles sont détectées automatiquement, à partir d’importants corpus de textes, en utilisant des mesures issues de la théorie de l’information. Nous proposons également une approche hybride combinant les modèles de langage probabilistes, utilisés dans la plupart des systèmes de reconnaissance actuels, avec des connaissances linguistiques explicites supplémentaires.

L’évaluation de l’ensemble de ces modèles est effectuée en terme de perplexité et en terme de prédiction à l’aide du jeu de Shannon. Pour tester leurs performances au niveau de la reconnaissance, nous avons développé un système de reconnaissance vocale nommé MAUD : Machine AUtomatique à Dicter ; il se fonde sur les modèles de Markov cachés de second ordre et utilise un vocabulaire de 20000 mots. Par rapport à la version de base de ce système utilisant un modèle trigrammes, l’intégration de ces modèles de langage a amélioré le taux de reconnaissance d’environ 22%.

Mots-clés: reconnaissance de la parole, modèles de langage, n-grammes, n-classes, grammaire d’unification, modèle hybride, multigrammes, multiclasses, modèle hiérarchique, modèle à base de séquences, MAUD.