Résumé :
L’utilisation des systèmes de reconnaissance automatique de la parole nécessite
des conditions d’utilisation contraintes pour que ces derniers obtiennent des résultats
convenables. Dans de nombreuses situations, des informations auxiliaires aux flux audio
sont disponibles. Le travail de cette thèse s’articule autour des approches permettant
d’exploiter ces transcriptions a priori disponibles. Ces informations se retrouvent
dans de nombreuses situations : les pièces de théâtre avec les scripts des acteurs, les
films accompagnés de sous-titres ou de leur scénario, les flashes d’information associés
aux prompts des journalistes, les résumés d’émissions radio… Ces informations
annexes sont de qualité variable, mais nous montrerons comment ces dernières peuvent
être utilisées afin d’améliorer le décodage d’un SRAP.
Ce document est divisé en deux axes liés par l’utilisation de transcriptions a priori au
sein d’un SRAP : la première partie présente une méthode originale permettant d’exploiter
des transcriptions a priori manuelles, et de les intégrer directement au coeur d’un
SRAP. Nous proposons une méthode permettant de guider efficacement le système de
reconnaissance à l’aide d’informations auxiliaires. Nous étendons notre stratégie à de
larges corpus dénués d’informations temporelles. La seconde partie de nos travaux est
axée sur la combinaison de SRAP. Nous proposons une combinaison de SRAP basée sur
le décodage guidé : les transcriptions a priori guidant un SRAP principal sont fournies
par des systèmes auxiliaires.
Les travaux présentés proposent d’utiliser efficacement une information auxiliaire
au sein d’un SRAP. Le décodage guidé par des transcriptions manuelles permet d’améliorer
sensiblement la qualité du décodage ainsi que la qualité de la transcription a
priori. Par ailleurs, les stratégies de combinaison proposées sont originales et obtiennent
d’excellents résultats par rapport aux méthodes existantes à l’état de l’art.