Attelage de systèmes de transcription automatique de la parole

Résumé :
Nous abordons, dans cette thèse, les méthodes de combinaison de systèmes de transcription de la parole à Large Vocabulaire. Notre étude se concentre sur l’attelage de systèmes de transcription hétérogènes dans l’objectif d’améliorer la qualité de la transcription à latence contrainte. Les systèmes statistiques sont affectés par les nombreuses variabilités qui caractérisent le signal de la parole. Un seul système n’est généralement pas capable de modéliser l’ensemble de ces variabilités. La combinaison de différents systèmes de transcription repose sur l’idée d’exploiter les points forts de chacun pour obtenir une transcription finale améliorée. Les méthodes de combinaison proposées dans la littérature sont majoritairement appliquées a posteriori, dans une architecture de transcription multi-passes. Cela nécessite un temps de latence considérable induit par le temps d’attente requis avant l’application de la combinaison.

Récemment, une méthode de combinaison intégrée a été proposée. Cette méthode est basée sur le paradigme de décodage guidé (DDA :Driven Decoding Algorithm) qui permet de combiner différents systèmes durant le décodage. La méthode consiste à intégrer des informations en provenance de plusieurs systèmes dits auxiliaires dans le processus de décodage d’un système dit primaire.

Notre contribution dans le cadre de cette thèse porte sur un double aspect : d’une part, nous proposons une étude sur la robustesse de la combinaison par décodage guidé. Nous proposons ensuite, une amélioration efficacement généralisable basée sur le décodage guidé par sac de n-grammes, appelé BONG. D’autre part, nous proposons un cadre permettant l’attelage de plusieurs systèmes mono-passe pour la construction collaborative, à latence réduite, de la sortie de l’hypothèse de reconnaissance finale. Nous présentons différents modèles théoriques de l’architecture d’attelage et nous exposons un exemple d’implémentation en utilisant une architecture client/serveur distribuée. Après la définition de l’architecture de collaboration, nous nous focalisons sur les méthodes de combinaison adaptées à la transcription automatique à latence réduite. Nous proposons une adaptation de la combinaison BONG permettant la collaboration, à latence réduite, de plusieurs systèmes mono-passe fonctionnant en parallèle. Nous présentons également, une adaptation de la combinaison ROVER applicable durant le processus de décodage via un processus d’alignement local suivi par un processus de vote basé sur la fréquence d’apparition des mots. Les deux méthodes de combinaison proposées permettent la réduction de la latence de la combinaison de plusieurs systèmes mono-passe avec un gain significatif du WER.