Noyaux de séquences pour la vérification du locuteur par Machines à Vecteurs de Support

Résumé :

Cette thèse est consacrée à l’application des Séparateurs à Vaste Marge (SVM) pour la Vérification Automatique du Locuteur (VAL) en mode « indépendant du texte ». Cette tâche consiste à déterminer si un énoncé de parole a été prononcé ou non par un locuteur cible, sans aucune contrainte sur le contenu du message communiqué. Pour appliquer une méthode à noyau comme les SVM à la classification binaire de séquences de taille variable pour la VAL, une voie intéressante et judicieuse est d’utiliser des noyaux qui manipulent les séquences et non les vecteurs acoustiques qui les composent. Comme il est expliqué dans le rapport de thèse, ce choix découle de plusieurs raisons théoriques et pratiques, liées aux difficultés rencontrées en traitement de la parole. Ainsi l’étude menée se focalise sur l’exploration théorique et expérimentale des noyaux pour les séquences. Après avoir fait un tour d’horizon des méthodes émergentes pour construire les noyaux de séquences, une nouvelle famille de noyaux est proposée : les noyaux FSNS (Feature Space Normalized Sequence kernels). Ces noyaux sont une généralisation d’un noyau qui a fait ses preuves en VAL. Une analyse théorique et algorithmique de ces noyaux est présentée. En particulier, plusieurs formulations sont introduites et justifiées, et une technique d’approximation adaptée au noyau est utilisée pour réduire la complexité et permettre une implémentation particulièrement efficace pour le problème de la VAL. Après la mise en oeuvre des systèmes SVM à base des différents noyaux étudiés, nous comparons leurs performances sur l’évaluation NIST Speaker Recognition Evaluation 2005, à partir d’un protocole de développement commun.

Ces expériences, réalisées sur un grand corpus de parole conversationnelle téléphonique, montrent l’intérêt des nouveaux noyaux proposés. Elles permettent aussi de mieux comprendre comment régler les différents noyaux de séquences pour aboutir à des classifieurs SVM robustes. Par rapport aux approches classiques, basées sur une modélisation des probabilités qui génèrent les observations au moyen de Mélanges de Modèles Gaussiens (MMG), les systèmes SVM permettent d’obtenir des performances compétitives et meilleures pour un coût moindre en terme de ressources temps et mémoires. Aussi les approches discriminantes SVM permettent d’améliorer les performances lorsqu’elles sont combinées avec les approches génératives MMG. Enfin, une nouvelle manière d’aborder le problème de VAL avec une approche discriminante est suggérée, avec la proposition d’un nouveau système SVM qui a pour but de déterminer si deux séquences de paroles ont été ou non prononcées par un même locuteur. Pour mettre en place un tel système, un noyau entre paires de séquences est conçu en s’inspirant des travaux les plus prometteurs sur le traitement des séquences par les méthodes à noyaux. Les résultats expérimentaux sur les évaluations NIST montrent les résultats prometteurs du nouveau système, qui sont de plus complémentaires vis-à-vis des approches classiques. Soulignons que le nouveau système est construit sur un modèle unique, réglé de manière discriminante pour la reconnaissance du locuteur : il permet ainsi de répondre très efficacement au problème de VAL.