Résumé:
Le traitement de l’information multimedia requiert de nouveaux outils tels des analyseurs de contenus ou indexeurs. Parmi ceux-ci, l’indexation par locuteurs d’un document audio, qui consiste à reconnaître la séquence de locuteurs engagés dans la conversation, tient une place essentielle. Il s’agit de savoir qui parle et quand afin de saisir la cohérence du dialogue.
Au cours de cette thèse, nous proposons tout d’abord un système d’indexation qui répond aux hypothèses que nous nous sommes fixées. Ces hypothèses sont les suivantes : aucune connaissance a priori sur les locuteurs ou sur le langage, le nombre de locuteurs est inconnu et les personnes ne parlent pas simultanément. Ce système d’indexation se décompose en plusieurs étapes : la segmentation en locuteurs, le regroupement des segments appartenant au même locuteur, la modélisation des locuteurs et enfin, la reconnaissance de la séquence de locuteurs à l’aide des modèles de locuteurs obtenus. Dans la suite de cette thèse, nous nous concentrons sur les deux premières étapes, à savoir la segmentation et le regroupement en locuteurs.
La segmentation en locuteurs vise à obtenir des segments ne contenant les paroles que d’un seul locuteur et les plus longs possibles. Pour aboutir à ce résultat, nous mettons en œuvre une technique de segmentation en deux passes. La première passe détecte les changements de locuteurs potentiels. Elle repose sur le calcul du rapport de vraisemblance généralisé entre deux portions de signal, chaque portion étant supposée être prononcée par un seul locuteur. Le rapport de vraisemblance permet alors de savoir si les deux portions sont générées par le même locuteur ou bien par deux locuteurs différents. La seconde passe de notre technique de segmentation est basée sur le critère d’information Bayesien qui permet de valider ou non les points de changement de locuteurs résultant de la première passe.
Une fois les segments de locuteurs obtenus, l’étape suivante consiste à regrouper tous les segments appartenant à un même locuteur, afin d’obtenir un important volume de données dudit locuteur pour la construction d’un modèle fiable. Le rapport de vraisemblance et le critère d’information Bayesien ayant prouvé leur efficacité au cours de la segmentation, nous les utilisons respectivement comme critère de regroupement et comme critère d’arrêt pour le regroupement hiérarchique. A chaque itération, le rapport de vraisemblance est calculé pour chaque couple de segments ou de groupes de segments et il permet de choisir le couple le plus apte à être réuni au sens de ce critère de regroupement. Une fois le couple choisi, la réunion est validée ou non par le critère d’arrêt, i.e. le critère d’information Bayesien.
L’efficacité des algorithmes proposés a été évaluée sur différentes bases de données de parole telles que TIMIT, SWITCHBOARD, des bases du CNET et des journaux télévisés.