Systèmes de reconaissance de la parole revisités : Réseaux Bayésiens dynamiques et nouveaux paradigmes

Résumé :

Dans cette thèse nous élaborons quatre composantes fondamentales d’un système de reconnaissance automatique de la parole : la modélisation acoustique, la modélisation du langage, la paramétrisation du signal acoustique et la compensation du bruit. Nous proposons des techniques nouvelles dans chacun de ces domaines, et nous apportons des perspectives novatrices. Nous traitons les problèmes de modélisation acoustique et modélisation du langage avec un outil statistique puissant : les modèles probabilistes graphiques. Ce formalisme généralise la plupart des techniques probabilistes utilisées dans le traitement de la parole. La reformulation des modules de modélisation dans ce formalisme, nous ouvre de nouvelles perspectives inexploitées auparavant. En plus des nouvelles approches pour la modélisation, nous proposons également de nouvelles stratégies pour l’extraction des paramètres acoustiques. Notre motivation principale dans ce domaine est de chercher des paramètres robustes qui ne sont pas liés à la modélisation par des HMMs. Nous abordons aussi le problème de robustesse au bruit par adaptation des modèles acoustiques et nous proposons une nouvelle méthode de compensation prédictive supervisée.

Modélisation Acoustique : La grande majorité des systèmes actuels de reconnaissance automatique de la parole utilise une modélisation statistique du signal acoustique par des modèles de Markov cachés (ou HMM pour Hidden Markov Models). Dans cette thèse, nous reformulons le problème de modélisation acoustique dans le cadre de réseaux Bayésiens dynamiques (RBD). Les RBD sont un sous-ensemble des modèles probabilistes graphiques dont le HMM est un élément. Une des principales faiblesses de la modélisation HMM est l’hypothèse de dépendances entre les variables des processus observées et cachées. Nous développons ainsi un algorithme de modélisation de la parole qui ne fait aucune hypothèse de dépendance a priori entre ces variables, mais plutôt qui apprend les dépendances à partir des données d’apprentissage. Cet algorithme est obtenu en formalisant le problème de modélisation dans le cadre de la théorie de l’apprentissage structurel des réseaux Bayésiens. Cet algorithme a l’avantage d’offrir une meilleure modélisation et discrimination de la parole (que les HMMs), en outre il garantit de meilleures performances de reconnaissance par rapport aux HMMs tout en permettant un contrôle sur la complexité souhaitée du moteur de reconnaissance.

Modélisation du langage : L’approche statistique pour la modélisation du langage tente de construire une représentation du langage en utilisant la distribution probabiliste empirique des événements linguistiques. La spécification d’un modèle de langage comporte la définition des variables implicites et/ou explicites du langage. L’évolution dynamique du langage est gérée par ces variables et leurs interactions dans le temps. Chaque variable est en relation avec un certain nombre de facteurs qui constituent son contexte. En termes probabilistes, le contexte d’une unité linguistique est défini par des propriétés d’indépendance conditionnelle. Étant donnée son contexte, chaque unité linguistique est supposée être indépendante des autres événements linguistiques. D’autre part, l’indépendance conditionnelle est la propriété essentielle des modèles probabilistes graphiques. En fait, grâce à l’exploitation de cette propriété on peut développer des algorithmes d’inférence efficaces et génériques pour les modèles graphiques. De plus, les modèles n-grammes et n-classes (et d’autres modèles du langage) sont des instances particulières des réseaux Bayesiens dynamiques. C’est donc une idée naturelle de reconsidérer les modèles du langage dans le cadre des RBDs et de rechercher des profits potentiels dans ce domaine. Nous proposons de définir un modèle de langage plus général où nous intégrons les approches classiques dans un cadre formel : les réseaux Bayésiens. Ceci permet une meilleure exploitation de chaque unité linguistique (i.e., mot, classe, etc.) utilisée dans le modèle. Les modèles proposés comportent un meilleur équilibre entre les propriétés de généralisation et la modélisation du contexte.

Paramétrisation du signal acoustique : Un autre axe de recherche de cette thèse porte sur les algorithmes d’extraction des paramètres acoustiques pour la RAP. Les paramètres actuels sont conceptuellement liés aux modèles de Markov cachés qui les utilisent. Ainsi, il est primordial de rechercher de nouvelles directions dans ce domaine afin de trouver des paramètres pertinents qui puissent être traités dans le cadre des RBD avec plus de souplesse. Nous analysons des techniques de paramétrisation basées sur des transformées en ondelettes. Nous proposons une nouvelle technique de paramétrisation qui fournit des paramètres robustes et localisés dans le domaine fréquentielle. La technique proposée est basée sur la projection des énergies d’un banc de filtre Mel sur une base d’ondelette. En fait, cette technique est une reformulation de l’approche « filtrage fréquentiel », dont le but est d’accentuer les fréquences des formants en utilisant un filtre linéaire.

Compensation du bruit : Dans ce domaine nous proposons une nouvelle approche de compensation prédictive. Cette approche est basée sur l’apprentissage supervisé des effets du bruit sur les modèles de la parole. L’avantage de notre approche est qu’elle ne fait aucune hypothèse sur la façon dont le bruit affecte le signal acoustique. Le principe de cette nouvelle approche est le suivant. En premier lieu, pour chaque condition de bruit, les modèles acoustiques sont appris en utilisant les données correspondantes à cette condition. Ensuite, nous utilisons les observations du bruit correspondant (extraites de la base d’apprentissage) pour construire un modèle probabiliste qui tente de représenter la distribution du bruit. Après avoir traité toutes les conditions, nous procédons à l’apprentissage supervisé d’un modèle paramétrique (prédéfini) qui tente de décrire la variation des modèles matchés par rapport à ceux du bruit. Lors du test, les observations du bruit de l’environnement de l’application sont utilisées pour estimer le modèle du bruit correspondant, ce dernier est ensuite donné comme argument au modèle paramétrique pour fournir des modèles estimés que nous espérons proches des modèles matchés (à l’environnement de l’application). Nous évaluons cette approche dans une tâche de reconnaissance de mots isolées.

Mot Clés : reconnaissance automatique de la parole, modélisation acoustique, modèle du langage, réseaux Bayesiens dynamiques, extraction des paramètres de la parole, transformée en ondelettes, robustesse au bruit.