Adaptation thématique non supervisée d’un système de reconnaissance automatique de la parole

Dans cette thèse, nous proposons un processus d’adaptation thématique non supervisée qui vise à spécialiser le modèle de langue (ML) et le vocabulaire d’un système de reconnaissance de la parole (RAP) en fonction du thème de chaque document à transcrire. Ce processus a comme singularité de ne nécessiter aucune connaissance a priori sur les éventuels thèmes rencontrés et d’intégrer des techniques de traitement automatique des langues. Il consiste à caractériser le thème d’un document audio par des mots-clés extraits automatiquement et à construire un corpus de pages Web du même thème. Nous ré-estimons alors le ML en fonction d’une terminologie issue de ce corpus, puis intégrons au système de nouveaux mots propres au thème en assimilant ceux-ci à d’autres avec lesquels il partagent des relations paradigmatiques. Nos expériences sur le corpus ESTER montrent que l’utilisation des ML et vocabulaire ainsi adaptés produit des améliorations du taux de reconnaissance d’un système de RAP.