Résumé :
Les systèmes de dialogue oral homme-machine fournissent des services (consultation d »horaires d’avions ou de trains, consultation de la météo, recherche de restaurants, . . .) à des utilisateurs, tout en leur offrant la possibilité de s »exprimer en langage naturel. Ces systèmes sont couplés avec une base de données en relation avec le service fourni. La difficulté principale est de comprendre le sens des paroles de l »utilisateur. Pour effectuer cette tâche, la plupart des systèmes de ce type font appel à un module de reconnaissance de la parole permettant de transformer le signal vocal en version textuelle. Cette transcription est ensuite analysée de manière à extraire les informations sémantiques indispensables au système pour répondre aux attentes de
l »utilisateur.
Dans cette architecture séquentielle de traitement des tâches, la qualité de l »interprétation sémantique est très dépendante de la qualité du processus de reconnaissance automatique de la parole. Ce module utilise généralement des informations acoustiques pour convertir le signal en unités linguistiques de base (phonèmes, syllabes ou mots) et des informations linguistiques à portée réduite (N-grammes). Le module
de compréhension s »appuie sur des unités sémantiques élémentaires, que l »on appelle concepts, qui sont ensuite composées pour obtenir une représentation sémantique. Alternativement à l »approche séquentielle des deux processus de transcription et compréhension, nous proposons un modèle basé sur le formalisme des transducteurs à états fini qui met en relation les mots avec les concepts qu »ils représentent. Ce modèle permet d »enrichir un graphe de mots avec des informations conceptuelles. En considérant une interprétation comme étant une séquence de concepts avec leurs valeurs, le processus de décodage proposé permet de fournir une liste structurée des N-meilleures hypothèses d »interprétation de l »énoncé. Cette liste permet d »obtenir en
quelques hypothèses, un résumé du graphe de mots, exhaustif et non-redondant du point de vue de la compréhension.
Afin de pallier les inévitables erreurs du processus de reconnaissance, nous présentons ensuite des mesures de confiance utiles pour diagnostiquer la qualité d »une interprétation. Ces mesures de confiance sont basées sur des connaissances acoustiques, linguistiques et sémantiques. Elles opèrent sur différents niveaux : mot, concept, phrase, etc.
Dans la dernière partie, nous proposons une stratégie d’aide à la décision pour le gestionnaire de dialogue. Cette stratégie s »appuie sur des unités de décision prenant en entrée la liste structurée des N-meilleures hypothèses d »interprétation ainsi que les mesures de confiance présentées. En sortie, chaque hypothèse est associée avec un état de fiabilité. Selon l »état et ses caractéristiques, des stratégies de correction d »erreurs adaptées sont proposées.