Reconnaissance de la parole continue : adaptation au locuteur et contrôle temporel dans les modèles de Markov cachés.

Résumé:

Les systèmes les plus performants en reconnaissance de la parole continue exploitent une approche statistique par modèles de Markov cachés, mais leur qualité reste encore décevante. Nous avons cherché à améliorer un système standard de reconnaissance en étudiant plus particulièrement l’adaptation au locuteur et la modélisation de la durée acoustique. Afin d’évaluer la pertinence des traitements proposés, un système de référence a été développé à partir la plate-forme logicielle HTK et testé sur la base de données TIMIT par des expériences de décodage acoustico-phonétique. Ce système est constitué de modèles phonétiques dépendants du contexte, et intègre une procédure originale pour un meilleur apprentissage des densités de probabilité.

La première étude concerne l’adaptation rapide du système à un nouveau locuteur par une approche qui généralise l’adaptation classique par multi-modèles. Les locuteurs d’apprentissage sont classés au moyen d’une distance inter-locuteurs utilisée en reconnaissance du locuteur. Pour un locuteur de test donné, les modèles appris sur les classes de locuteurs les plus proches au sens de la distance sont ensuite combinés dans un modèle unique.

La deuxième étude concerne le contrôle temporel de l’enchaînement des modèles. Une analyse par rupture de modèles détecte des événements infra-phonémiques dans le signal de parole, qui sont exploités au cours du décodage de la parole continue pour modifier les probabilités de transition entre unités phonétiques. Le contrôle proposé apporte une amélioration significative de la reconnaissance lexicale.

Ces travaux sont une contribution au développement d’un système de dictée vocale indépendant du locuteur, ce qui nécessite en particulier l’intégration d’un véritable modèle de langage et l’évaluation sur d’autres bases de données.