Un modèle probabiliste pour intégrer la dimension temporelle dans un système de reconnaissance automatique de parole.

Résumé:

Dans le cadre de la reconnaissance automatique de la parole, les modèles de Markov cachés (MMC) sont utilisés avec succès. La modélisation markovienne s’appuie sur une description hiérarchique des applications, déduite à partir de connaissances à priori syntaxique, lexical et phonétique. En particulier, au niveau phonétique, chaque mot est décomposé à l’aide d’entités de nature linguistique. Une source markovienne est ensuite associée à chacune de ces unités pour donner le réseau acoustique global. Cette procédure conduit à une représentation précise de la structure acoustique de la parole.

Cependant, parce que cette modélisation est contrainte à prendre en compte uniformément les observations, elle ne permet pas d’approximer l’ensemble des informations véhiculées par le signal de parole. Parmi les paramètres extraits de ce signal, contrairement aux paramètres spectraux qui dépendent directement du niveau acoustique élémentaire, les paramètres prosodiques tels que la durée, l’énergie et la fréquence fondamentale sont aussi liés au niveau phonétique suprasegmental. Afin de combiner efficacement les indices prosodiques et acoustiques, nous définissons un nouveau modèle qui sépare les représentations acoustiques et suprasegmentales. Il résulte d’une extension des MMC. La structure hiérarchique du réseau standard est préservée. Sa spécificité est qu’il distingue, suivant leur nature, les observations qui sont traitées au niveau acoustique de celles qui sont introduites au niveau phonétique, chaque niveau possédant sa propre échelle de temps. L’analyse théorique montre qu’en raison de sa propriété non markovienne, ce modèle oblige à reconsidérer les procédures d’apprentissage et de reconnaissance. Pour valider notre approche, nous nous intéressons au problème de l’intération de la dimension temporelle. La solution retenue consiste à associer le nouveau modèle avec un prétraitement acoustique dont l’originalité est d’intégrer un algorithme de segmentation automatique. La durée globale du son est alors explicitement modélisée, tout en conservant une représentation précise de la structure acoustique du signal de parole. De surcroît, l’approche est rendue plus réaliste en adaptant les caractéristiques statistiques du paramètre de durée en fonction de la vitesse d’élocution. Deux alternatives sont envisagées : la vitesse d’élocution est exploitée soit en cours de reconnaissance en employant un filtre de Kalman, soit dans une phase de post-traitement.

Les résultats sont donnés dans le cas d’une tâche de reconnaissance des nombres de 0 à 999. Deux unités de base ont été testées, les allophones et les pseudo-diphones. Les modélisations proposées conduisent à une réduction du taux d’erreur de l’ordre de 15 classique. Ces performances suggèrent que les informations de durée et de vitesse d’élocution sont essentielles dans une stratégie de reconnaissance de parole. De plus, nos méthodes offrent un support théorique et rigoureux pour l’introduction d’autres informations suprasegmentales comme l’énergie.