Recherche d’invariants acoustiques pour la reconnaissance automatique du locuteur.

Résumé:

L’identification du locuteur consiste à attribuer une identité au locuteur d’un énoncé. Cette identité sera celle du locuteur d’une base de référence qui est le plus proche de ce locuteur inconnu, au sens d’une mesure de similarité donnée. Le mode indépendant du texte signifie qu’il n’y a aucune contrainte sur le contenu des phrases prononcées.

Au cours de cette thèse, nous développons un ensemble de mesures de similarité reposant sur une modélisation statistique Gaussienne de vecteurs de paramètres obtenus à l’issue d’une analyse spectrale. Ces mesures reposent essentiellement sur les matrices de covariance de ces vecteurs de paramètres. Une symétrisation de ces mesures est également proposée. Toutes ces mesures, sous leurs différentes formes, sont systématiquement testées sur les bases TIMIT et NTIMIT.

Une fois ces mesures de référence établies, nous tentons de prendre en compte les aspects dynamiques des séquences de vecteurs de paramètres. Ceci nous conduit à étudier les modèles auto–régressifs vectoriels dans le cadre de l’identification du locuteur. Nous testons systématiquement différentes façons de combiner les erreurs résiduelles de prédiction obtenues à l’aide de ces modèles, et comparons les résultats aux mesures de référence précédentes. Nous mettons en oeuvre également un protocole expérimental qui permet de mesurer l’efficacité des modèles AR–vectoriels en identification du locuteur après avoir détruit la structure temporelle des vecteurs de paramètres.

Nous établissons alors un formalisme beaucoup plus général pour le filtrage des séquences de vecteurs de paramètres, que nous appelons filtrage vectoriel de trajectoires spectrales. Ce formalisme englobe un grand nombre d’approches classiques en traitement de la parole, parmi lesquelles on trouve les modèles AR–vectoriels, l’analyse cepstrale, les paramètres Delta et Delta–Delta, la paramétrisation RASTA, la transformée en cosinus de trajectoires spectrales, … L’avantage de ce type de filtrage est qu’il opère simultanément dans les dimensions temporelle et fréquentielle.

Nous présentons finalement un autre filtrage particulier, qui entre dans le cadre du formalisme précédent. Ce filtrage repose sur une analyse en composantes principales temps–fréquence de parole multi–locuteur.

En conclusion, il apparaît que le filtrage vectoriel de trajectoires spectrales est très prometteur, puisqu’il permet de prendre en compte une évolution temporelle des vecteurs de paramètres, tout en filtrant ces mêmes vecteurs dans la dimension fréquentielle. Il permet aussi d’unifier de nombreuses approches différentes. En outre, ce travail suggère de nouvelles approches au niveau de la représentation du signal de parole, et plus particulièrement dans le cadre de la reconnaissance de la parole et du locuteur. Ce type de filtrage peut enfin s’appliquer à d’autres familles de signaux.

Mot-Clés : Reconnaissance du locuteur, identification du locuteur, mode indépendant du texte, mesures statistiques du second–ordre, modèles AR–vectoriels, filtrage vectoriel de trajectoires spectrales, filtrage vectoriel temps–fréquence, composantes principales temps-fréquence.