Structuration de l’espace acoustique par le modèle générique pour la vérification du locuteur

Résumé :

La Vérification Automatique du Locuteur (VAL) consiste à confirmer ou infirmer par sa voix l’identité proclamée d’un individu. Pour cette tâche, il est nécessaire d’estimer la probabilité pour qu’un locuteur ne corresponde pas à l’identité qui a été proclamée. Dans le paradigme de modélisation par GMM, un modèle générique (ou modèle du monde) est employé à cet effet. Cependant, son utilisation va bien au delà de cette simple estimation. Il joue, en effet, un rôle structurant pour l’espace acoustique, à travers l’estimation des modèles de locuteur et les calculs de statistiques.

Les travaux présentés dans cette thèse s’inscrivent dans le cadre de la VAL et sont orientés autour d’un axe principal : l’intégration du modèle générique au sein des nouveaux formalismes apparus ces dernières années. Parmi ceux-ci, deux catégories ont retenu notre attention, les systèmes s’appuyant sur une approche discriminante et les systèmes modélisant des caractéristiques du locuteur autres que celles issues de l’enveloppe spectrale à court terme (appelés systèmes « haut-niveau »).

La première contribution de nos travaux consiste à représenter le signal par des événements acoustiques issus du modèle générique et à analyser la séquence de ces événements dont la dynamique est spécifique du locuteur. Ces événements acoustiques sont, de fait, indépendants de la structure
de la langue et n’ont pas de signification linguistique propre. Ce système, nommé AES (Acoustic Event Sequences), présente des performances similaires aux systèmes haut niveau basés sur une analyse phonétique ou lexicale. La seconde contribution vise à l’élaboration d’un système
employant une modélisation discriminante structurée par le modèle générique. Notre contribution se distingue par l’expression du problème de vérification dans une faible dimension et exploitant la capacité de modélisation du modèle générique. Les performances du système, nommé
SVM-UBM, obtenues sont proches des systèmes standards. Les contributions proposées ouvrent de nombreuses perspectives attrayantes notamment l’unification des deux approches majeures présentées dans ce document, perspective qui représente une prochaine étape vers un paradigme riche
en informations, dynamiques et discriminantes.