Approches robustes pour la vérification du locuteur par normalisation et adaptation hiérarchique. - Association Francophone de la Communication Parlée

Résumé :

La vérification automatique du locuteur (VAL) consiste à authentifier l’identité d’une personne
en analysant les caractéristiques de sa voix. Ses applications vont du contrôle d’accès à l’authentification
d’enregistrements sonores, en passant par des tâches d’étiquetage automatique de documents audio en
fonction des locuteurs.

Lorsqu’ils sont utilisés en situation réelle et dans des environnements perturbés,
comme les applications téléphoniques notamment, les systèmes de VAL peuvent être confrontés à de fortes
variations de conditions d’utilisation, entraînant une augmentation importante des erreurs de reconnaissance.
Pour diminuer ce type d’erreurs, les systèmes actuels doivent intégrer des techniques de compensation dont
l’objectif est d’atténuer les effets des disparités entre les données d’apprentissage et celles de test. En particulier,
les techniques de normalisation et d’adaptation Bayésienne de modèles ont montré leur intérêt pour améliorer
la robustesse des systèmes de VAL. Cependant, les approches courantes de normalisation demandent souvent
une mise en oeuvre contraignante. L’adaptation Bayésienne classique trouve quant à elle ses limites lorsque la
quantité de données d’apprentissage est très limitée. L’objectif de cette thèse est de développer des techniques
destinées à remédier à certaines de ces limitations. Nos travaux s’inscrivent dans l’approche probabiliste pour la
VAL. Les locuteurs sont modélisés par des modèles de mélange de Gaussiennes et l’étape de décision est basée
sur un test d’hypothèses Bayésien qui utilise le rapport de vraisemblances entre le modèle du locuteur « client », et le modèle « imposteur » représenté par un modèle du monde.

Dans un premier temps, nous élaborons de nouvelles techniques de normalisation
qui utilisent des divergences de Kullback-Leibler (KL) entre les modèles de locuteur et le modèle du monde. Nous nous appuyons pour cela sur le lien formel
que nous mettons en évidence entre les divergences KL et le log-rapport de vraisemblances~: l’espérance mathématique du log-rapport de vraisemblance peut s’écrire comme une différence entre deux divergences KL faisant intervenir le modèle du locuteur, le modèle du monde et le modèle du test. En pratique, ce lien s’est traduit par l’observation d’une forte corrélation entre les divergences KL et la moyenne des scores imposteurs. Les techniques de normalisation qui en découlent agissent au niveau des scores
de vérification et au niveau des modèles et permettent un allègement significatif de la procédure de normalisation. La première technique, appelée D-norm, normalise les scores en compensant la corrélation observée. La seconde technique, appelée D-MAP, normalise directement les modèles vis-à-vis de leur divergence KL. Elle joue pour cela sur le procédé d’adaptation Bayésienne des modèles en déterminant un facteur d’adaptation propre à chaque locuteur, ce qui permet de « placer » tous les modèles à une même distance du modèle du monde. Nous formalisons également un nouveau cadre pour la vérification du locuteur en plaçant le test d’hypothèses dans
un espace des modèles. Cet espace est défini à partir d’une mesure de similarité simple, dérivée des divergences KL, entre modèles GMM de locuteur, et qui s’exprime directement à partir des paramètres des modèles. Cette mesure peut s’interpréter comme une distance Euclidienne dans l’espace des modèles que nous avons défini. Cet espace conduit à un calcul simplifié des scores de vérification et autorise une manipulation
efficace des modèles, offrant ainsi de nombreuses possibilités de normalisation. Les résultats expérimentaux montrent
que les approches de normalisation proposées sont valides et peuvent avantageusement remplacer les techniques
courantes. L’espace des modèles a également été mis à profit pour une tâche de regroupement en locuteur de segments de parole dans un enregistrement radiophonique. Le système utilise un procédé de classification hiérarchique ascendant des segments de parole, basé sur la mesure de distance entre GMM dans l’espace des modèles. Cette même distance a aussi été utilisée pour une tâche de sélection de locuteur représentatifs d’un ensemble de personnes.

Dans un deuxième temps, nous concevons un schéma d’adaptation Bayésienne hiérarchique qui a pour
but d’améliorer l’estimation des modèles de locuteurs lorsque la quantité de données d’apprentissage est faible. La
technique proposée, appelée H-MAP, généralise l’approche MAP classiquement utilisée en VAL, en offrant de plus la possibilité d’intégrer des
dépendances entre différentes régions acoustiques occupées par la voix d’un locuteur. Ces dépendances sont capturées de façon hiérarchique par un arbre binaire qui établit des corrélations entre les moyennes de GMM dans différents niveaux de résolution. La structure obtenues est de type réseau Bayésien gaussien et permet d’apapter les moyennes d’un GMM dans un niveau donné de l’arbre, en tenant compte de l’estimation des moyennes parents dans les niveaux supérieurs (propagation des dépendance du haut de l’arbre vers le bas). Si le cadre théorique proposé est
attrayant, la mise en oeuvre de cette technique est délicate et elle n’a pas montré d’avantage décisif pour l’instant. Néanmoins, les résultats obtenus sont encourrageant et les perpectives offertes sont nombreuses.

L’ensemble des techniques étudiées dans le cadre de cette thèse a été évalué sur des bases de données téléphoniques en parole naturelle, dans le
cadre des évaluations NIST en reconnaissance du locuteur.