Traitement de la prosodie en reconnaissance automatique de la parole.

Résumé:

Les travaux présentés concernent le traitement de la prosodie dans les systèmes de reconnaissance de la parole. Les principales étapes d’une approche prosodique classique (mesure des paramètres, corrections microprosodiques et perceptives, application de règles suprasegmentales) font l’objet de discussions qui introduisent les choix faits pour chacune d’elles.

Dans la première partie de ce mémoire, sont abordées en détail les variations microprosodiques (ou segmentales) des paramètres prosodiques. Un inventaire des principaux phénomènes abondamment étudiés par le passé est tout d’abord proposé. Chacun d’eux est alors étudié sur des corpus de mots prononcés isolément afin de déterminer d’une part, si l’emploi de techniques d’extraction automatique des paramètres autorise l’usage de ces variations en tant qu’indice pertinent lors d’une phase de décodage acoustico-phonétique, et d’autre part, de vérifier la robustesse d’un processus de correction des paramètres prosodiques objectifs à l’aide de coefficients microprosodiques dans le cadre d’un traitement automatique. L’étude montre que, dans le cadre restreint de mots isolés, peu de phénomènes microprosodiques sont observables de manière significative par les techniques retenues, rendant pour le moins incertaine toute tentative de correction des valeurs objectives des paramètres de durée, de fréquence fondamentale et d’intensité. Les indices pertinents ont été intégrés avec succès à un module d’accès lexical.

La seconde partie du mémoire présente les difficultés majeures liées à l’analyse prosodique suprasegmentale par un expert et tente d’expliquer le recours de plus en plus fréquent à l’outil statistique pour y parvenir. Un système d’étude corrélative automatique a été développé qui revendique d’une part, une assistance à l’analyse prosodique par un expert (en offrant des outils de visualisation et d’interrogation), et d’autre part, une fonction prédictive de la structure linguistique d’un message à décoder. Deux applications de ce système sont alors proposées, l’une de reconnaissance de nombres décimaux (notre système s’est par exemple montré apte à localiser précisement le mot « virgule » dans une cha”ne inconnue à partir des informations prosodiques seules), l’autre de reconnaissance de phrases de type lues avec des résultats qui valident pleinement notre approche globale de résolution.