Détection de ruptures et suivi de classe de sons pour l’indexation sonore.

Résumé:

Dans le contexte actuel du besoin croissant d’outils de gestion de documents multimédia, cette thèse a pour objet de définir, étudier, mettre en oeuvre et évaluer des algorithmes de description de documents sonores pour l’indexation. Ces travaux se concentrent sur les trois problèmes suivants : la détection de changements de plage sonore, la détection d’une classe de sons, et le suivi d’une classe de sons. La détection de changements de plage sonore consiste d’abord à calculer, à chaque instant, un indice de rupture à partir d’une statistique de test. Ensuite, un critère de rupture est utilisé pour mettre en évidence les extrema dominants de l’indice, sans faire appel à un seuil de réglage auxiliaire. Comme alternative au Rapport de Vraisemblance Généralisé (RVG), habituellement utilisé pour le test d’une rupture, nous proposons une autre statistique, basée sur une estimation de la divergence de Kullback entre les distributions avant et après rupture (le maximum de divergence de Kullback empirique généralisée). Ces deux statistiques sont comparées, d’une part sur leurs lois asymptotiques en absence de rupture, et d’autre part sur une tâche expérimentale de détection de ruptures de type parole/musique. Pour la détection et le suivi d’une classe de sons, la distribution des paramètres acoustiques du document est modélisée par un mélange des distributions cible et non-cible. Deux statistiques sont alors dérivées de ce modèle de mélange : l’estimateur du maximum de vraisemblance du poids de la distribution cible et le RVG du test de détection. Ces deux statistiques sont évaluées et comparées à la statistique usuelle du rapport de vraisemblance cible/non-cible, sur une tâche de suivi de parole dans une émission documentaire (corpus AIM de l’INA, projet DiVAN) et sur des tâches de détection et de suivi du locuteur dans une conversation téléphonique (corpus Switchboard, évaluations NIST au sein du consortium ELISA). Les résultats obtenus mettent en évidence des différences de performances de ces statistiques selon la tâche traitée, mais également selon la méthode d’estimation des distributions des classes de sons.

Mots clefs Indexation, multimédia, signal sonore, mélange de gaussiennes, modèle de mélange, test statistique, détection de rupture, rapport de vraisemblance généralisé, divergence de Kullback, détection d’une classe de sons, suivi d’une classe de sons.