Structuration du modèle acoustique pour améliorer les performances de la reconnaissance automatique de la parole - Association Francophone de la Communication Parlée

Résumé :
Cette thèse se concentre sur la structuration du modèle acoustique pour l’amélioration de la reconnaissance de la parole par modèle de Markov. La structuration repose sur l’utilisation d’une classification non supervisée des phrases du corpus d’apprentissage pour tenir compte des variabilités dues aux locuteurs et aux canaux de transmission. Du fait de ces variabilités, une unité phonétique dans un contexte donné (c’est-à-dire un triphone) est associée à des paramètres acoustiques dépendants entre autres de l’âge, du sexe et de l’accent du locuteur ainsi que des conditions d’enregistrement et de transmission. Quand les informations associées au locuteur ne sont pas disponibles (ou si on veut aller au delà de la traditionnelle classification homme/femme), il faut mettre en œuvre une classification non supervisée. L’idée est de regrouper automatiquement les phrases prononcées en classes correspondant à des données acoustiquement similaires. Pour la modélisation multiple, un modèle acoustique indépendant du locuteur est adapté pour chaque classe en utilisant les données correspondantes. Pour transcrire un segment de parole, la classe est d’abord estimée, puis le décodage est effectué avec le modèle acoustique correspondant à la classe estimée.

Un grand nombre de classes est souhaitable pour bien représenter les différentes sources de variabilité. Mais, quand le nombre de classes augmente, la quantité de données disponibles pour l’apprentissage du modèle de chaque classe diminue, et cela peut rendre la modélisation moins fiable. Une façon de pallier ce problème est de modifier le critère de classification appliqué sur les données d’apprentissage pour permettre à une phrase d’être associée à plusieurs classes. Ceci peut être obtenu par l’application d’un seuil (marge de tolérance) par rapport à la meilleure distance. Dans la première partie de la thèse, la marge de tolérance est étudiée pour un classifieur GMM (Gaussian Mixture Model / mélanges de Gaussiennes) indépendant des phonèmes et avec le critère du maximum de vraisemblance. Ensuite, l’approche est appliquée sur un classifieur qui utilise un modèle GMM pour chaque phonème et la mesure de divergence de Kullback-Liebler.

L’essentiel de la thèse est consacré à une nouvelle approche qui utilise la classification automatique des données d’apprentissage pour structurer le modèle acoustique : CS-GMM (Class-Structured GMM). Ainsi, au lieu d’adapter tous les paramètres du modèle HMM-GMM pour chaque classe de données, les informations de classe sont explicitement introduites dans la structure des GMM en associant chaque composante des densités multi-gaussiennes (ou un sous-ensemble de composantes) avec une classe. Le modèle obtenu a le même nombre de paramètres que le modèle HMM-GMM conventionnel, mais les composantes des densités sont structurées en relation avec les classes des données (par exemple, classes de locuteurs). Pour exploiter efficacement cette structuration des composantes, deux types de modélisations sont proposées. Dans la première approche on propose de compléter cette structuration des densités par des pondérations des composantes gaussiennes dépendantes des classes de locuteurs (Class-Structured with Class-Dependent mixture Weights / CS-CDW-GMM). Pour cette modélisation, les composantes gaussiennes des mélanges GMM sont structurées en fonction des classes et partagées entre toutes les classes, tandis que les pondérations des composantes des densités sont dépendantes de la classe. Lors du décodage, le jeu de pondérations des gaussiennes est sélectionné en fonction de la classe estimée. Dans une deuxième approche, les pondérations des gaussiennes sont remplacées par des matrices de transition entre les composantes gaussiennes des densités (comme dans les Stranded GMMs / StGMM). Alors que les StGMM étaient originellement initialisés à partir de HMM-GMM conventionnels, le modèle CS-StGMM (Class-Structured StGMM) proposé est initialisé à partir d’un modèle structuré.

Les approches proposées dans cette thèse sont analysées et évaluées sur différents corpus de parole qui couvrent différents types de parole (chiffres connectés et données grand vocabulaire d’émission radio) et différentes sources de variabilité (âge, sexe, accent et bruit). L’utilisation d’une marge de tolérance permet d’estimer un grand nombre de modèles de classes même avec une quantité limitée des données d’apprentissage. La nouvelle approche basée sur la structuration des composantes gaussiennes des densités utilise beaucoup moins de paramètres. Le premier modèle structuré (CS-CDW-GMM) exploite le décodage habituel de Viterbi, et conduit à des performances similaires à celles des modèles de classes pour la reconnaissance grand vocabulaire, et à de meilleures performances pour la reconnaissance de chiffres connectés prononcés par des enfants et des adultes. Le second modèle structuré (CS-StGMM) utilise un algorithme de décodage plus complexe, mais n’exige pas une classification préalable, et il conduit à de meilleures performances que l’approche CS-CDW-GMM.