Vers le temps réel en transcription automatique de la parole grand vocabulaire

Résumé :

Malgré les progrès importants réalisés ces dernières décennies, les systèmes de reconnaissance de la parole spontanée grand vocabulaire sont encore beaucoup trop lents pour être utilisés dans des contextes réels.
Le travail effectué au cours de cette thèse s’attache alors à proposer des méthodes de réduction du temps de calcul de ces systèmes en vue de permettre leur utilisation dans de tels contextes.

Parmi les tâches pour lesquelles l’optimisation du temps de reconnaissance est possible, nous nous sommes concentrés sur le calcul des probabilités des modèles, tâche occupant à elle seule souvent plus de la moitié du temps global de traitement.
Les distributions des modèles acoustiques utilisés par les systèmes de reconnaissance sont généralement représentées par des mélanges de gaussiennes. Le calcul des probabilités d’émissions relatives est donc particulièrement lié au nombre de gaussiennes considérées dans ces mélanges. Notre travail s’est porté alors sur la proposition et l’évaluation de méthodes de sélection de gaussiennes.

Les méthodes de sélection de gaussiennes existantes sont basées sur la classification. Pour améliorer cette classification, nous avons proposé une approche de partitionnement hiérarchique basée sur la similarité entre les distributions gaussiennes. La distance de Kullback-Leibler symétrisée et pondérée a été introduite à cet effet.
Suite à la classification des gaussiennes, un algorithme de sélection multi-niveaux est appliqué.

Les mélanges de distributions gaussiennes correspondent à des contextes d’apparition différents. Malheureusement, Les méthodes de sélection existantes ne prennent pas en compte ces différents contextes, puisque lorsque le nombre de gaussiennes par état est faible, toutes les distributions sont mélangées avant d’être regroupées. Ainsi, nous avons développé une méthode de sélection contextuelle des gaussiennes.
Les méthodes de sous-quantification vectorielle sont apparues comme une alternative aux approches basées sur la sélection des gaussiennes. En regroupant toutes les distributions, elles mélangent certains contextes. Ainsi, nous avons introduit une sous-quantification vectorielle contextuelle.