Eléments pour un système de reconnaissance automatique de la parole continue du français. - Association Francophone de la Communication Parlée

Résumé:

Cette thèse porte sur la Reconnaissance Automatique de la Parole (RAP).

Dans une première partie, nous définissons les bases théoriques de la RAP. Après avoir présenté les principaux facteurs caractéristiques du domaine, nous proposons de distinguer les notions de méthodologie et de stratégie de reconnaissance. Nous insistons notamment sur les méthod es probabilistes utilisées dans ce travail de recherche et sur les raisons qui poussent à mettre en oeuvre des stratégies dites multi-passes. Nous terminons par un tour d’horizon de Systèmes de Reconnaissance Automatique de la Parole Continue (SRAPC) afin de faire le point sur les différentes stratégies employées actuellement.

La seconde partie est consacrée à la réalisation d’un système de Décodage Acoustico-Phonétique (DAP) fondé sur la modélisation markovienne. Nous commençons par préciser le cadre de notre travail, ses ambitions, mais aussi ses limites. D’une manière générale, la problématique traitée recouvre l’ensemble des problèmes rencontrés lors de l’automatisation des processus de construction d’un moteur de RAP. En ce qui concerne le DAP, nous étudions particulièrement la phonétisation des corpus et l’impact de l’alignement des données acoustiques et phonétiques sur l’initialisation des modèles probabilistes acoustiques. Des expériences de reconnaissance nous permettent de valider et confronter les différents choix retenus.

Dans la troisième partie, nous étudions l’accès lexical et la modélisation du langage. Tout d’abord, nous présentons un SRAPC de référence s’appuyant sur les méthodes exposées en seconde partie. Puis, nous proposons deux stratégies de reconnaissance alternatives. La première est une stratégie multi-passes fondée sur une simplification du lexique et un processus de filtrage acoustico-linguistique. La seconde stratégie proposée vise à inclure des ressources linguistiques diverses directement dans un processus de décodage dérivé de l’algorithme A*. Des expériences de reconnaissance sur ces systèmes permettent de comparer les différentes approches proposées.

Enfin, dans la quatrième et dernière partie, nous nous intéressons à la fabrication de Modèles de Langage (ML) probabilistes. Nous proposons une méthode qui permet de faciliter la mise au point de ML gràce à un processus d’extraction de Sous-Modèles de Langage (SML) à partir d’un ML calculé au préalable. Nous illustrons cette méthode sur un ML de 64 000 mots à partir duquel nous calculons une suite de SML.