Conception et réalisation d’une machine à dictée à entrée vocale destinée aux grands vocabulaires : le système MAUD.

Résumé:

L’objectif essentiel des études sur la reconnaissance automatique de la parole est de permettre à terme une interaction la plus naturelle possible entre l’homme et la machine. L’un des domaines les plus prometteurs du traitement de la parole est sans doute la machine à dicter à entrée vocale. Cette thèse présente le résultat de notre travail sur la réalisation d’une telle machine. Nous nous sommes intéressés dans ce travail aux aspects de la reconnaissance de la parole, mais plus particulièrement à trois composantes importantes permettant la conception et la réalisation d’une machine à dicter :

-La composante lexicale

-La composante linguistique

-L’éditeur associé à la machine à dicter.

La conception de ce système a donné lieu à la réalisation de machine à dicter appelée MAUD (Machine Automatique à Dicter) fonctionnant en parole pseudo-continue. MAUD utilise en entrée un treillis phonétique réel obtenu par le décodeur acoustico-phonétique : APHODEX développé au sein de notre équipe. MAUD doit gérer grâce à ces différentes composantes, les erreurs et les ambiguïtés phonétiques du treillis. Les résultats actuels du décodage sont de l’ordre de 70% de bonne transcription.

La composante lexicale de MAUD est le noyau d’articulation de son système de reconnaissance. MAUD utilise de très grands vocabulaires LEX 7000 et LEX 37000 qui comportent respectivenent 7000 et 37000 entrées lexicales. C’est pourquoi, nous avons mis en oeuvre des stratégies et des structures permettant une gestion efficace de ces très grands vocabulaires qui sont sollicités constamment par la composante lexicale de MAUD. Ces vocabulaires ont été extraits de BDLEX (Base de Données LEXicales pour le français) auxquels nous avons rajouté des informations fréquentielles.

Une grande partie de notre travail a été consacrée à la réalisation de la composante linguistique. En effet, le langage permis pour la dictée se veut par définition le plus général possible. Par conséquent, aucune ou peu de connaissances pragmatiques peuvent être utilisées. C’est pourquoi nous avons voulu que le modèle linguistique soit le plus précis possible. Cette composante comporte 7 modules syntaxico-sémantiques, qui agissent comme une pyramide de filtres, pour donner en sortie les meilleures interprétations possibles. Un modèle markovien particulier a été utilisé pour permettre de trouvers les meilleurs chemins possibles. Ce modèle présente l’avantage de ne pas utiliser tous les mots du lexique, mais uniquement ceux reconnus par le pré-processeur syntaxico-sémantique. Ces mots constituent les symboles émis par la source de Markov.

Le dernier niveau du modèle linguistique est une base de règles grammaticales ayant un champ d’action plus large que celles utilisées dans les premiers modules de cette composante. Cette base de règles peut être substituée à terme par un correcteur syntaxique. Ces modules s’inspirent dans leurs conceptions de la théorie de l’information et des connaissances spécifiques à la langue. Nous nous posons un certain nombre de questions dans cette thèse, qui nous mènent dans le domaine très complexe de l’inférence grammaticale appliquée au langage naturel. Quant à l’éditeur associé à MAUD, il est en fait constitué d’un système multi-fenêtres qui permet de donner la main à l’utilisateur pour aider éventuellement le système à résoudre des ambiguïtés ou pour donner des explications sur la prise de décision concernant les mots reconnus. Certains résultats sont présentés dans les premiers chapitres et ceux relatifs à la reconnaissance proprement dite sont donnés dans le dernier chapitre de cette thèse. Nous présentons également les structures et les stratégies que nous avons adoptées pour généraliser MAUD à la parole continue. La phase de conception étant terminée, la deuxième version de MAUD est en cours de programmation.

Pour terminer, nous présentons nos réflexions sur la réorganisation des sources de connaissances et de leurs intégrations dans un système multi-agents permettant la coopération de ces sources.