Détection de mots-clés dans un flux de parole : Application à l'indexation de documents multimédias. - Association Francophone de la Communication Parlée

Résumé:

La quantité d’information multimédia accessible croît de façon vertigineuse. L’avènement de la micro informatique permet à chacun d’apporter sa participation à la création de cette nouvelle source d’information planétaire qu’est « Internet », tandis que les média proposent maintenant la connexion à des bouquets de chaînes de télévision numériques transmis par satellite. L’accès à cette quantité croissante d’information ne s’effectue pas sans problème, et les besoins en outils d’indexation se font cruellement ressentir.

Cette thèse propose diverses solutions pour exploiter les signaux sonores d’un document multimédia afin de repérer les endroits où les mots clés sont prononcés, pour permettre l’indexation plus aisée de ce document. Cette thèse fixe tout d’abord le cadre de l’étude de l’indexation multimédia et définit les outils nécessaires à son élaboration. Alors que l’indexation de textes écrits existe depuis des décennies, l’indexation du contenu des autres média (images fixes, séquences vidéo, musique, parole) est toujours au stade de développement. Les travaux existants en indexation sur l’image ainsi que ceux sur la reconnaissance de locuteur sont brièvement exposés afin de mieux situer le contexte exact de la thèse qui se focalise sur la détection de mots clés.Ensuite cette thèse expose les éléments théoriques nécessaires à la mise en oeuvre dun tel système d’indexation par mots clés. Elle explicite d’une part les méthodes d’analyse du signal acoustique nécessaires à l’extraction des informations caractéristiques de la parole (LPC, PLP, Cepstre, Pitch-Energie), et d’autre part les méthodes de modélisation du langage. On montre comment, en partant d’une modélisation markovienne, deux critères de maximisation peuvent être mis en oeuvre. L’un, classique, est un critère de maximisation de la vraisemblance, et le second, issu d’une théorie émergente (REMAP), est un critère de maximisation de la probabilité a posteriori.

Dans la suite, l’ouvrage se réfère à la littérature spécifique au sujet traité. Il énonc tout d’abord les méthodes existantes pour l’évaluation des systèmes de reconnaissace de parole et montre les contraintes qui y afférent. Ensuite, les recherches successives en détection de mots clés sont présentées en y relevant les idées novatrices. Les récentes avancées dans le domaine voisin qu’est le tri automatique de messages acoustiques sont également exposées.Après une brève énumération des contraintes spécifiques à l’indexation de la parole par la recherche de mots clés (indépendance du vocabulaire sur lequel porte la recherche, rapidité d’exécution de la recherche, indépendance du locuteur), le manuscrit décrit trois outil de détection de mots clés respectant ces contraintes spécifiques. Le premier d ces outils extrait des segments acoustiques les probabilités qu’ils aient été roduits lors de la prononciation de phonèmes. A partir de ces informations, l’outil détect les régions du signal où la probabilité de présence d’un phonème est élevée et place ces « hypothèses phonétiques » dans un treillis qui sera sauvegaré et utilisé lors des requêtes. Quand une recherche sur un mot donné est n&ecute;cessaire, il suffit que le système parcoure le treillis à la recherche de la séquence phonétique correspondant au mot recherché pour en effectuer la détection. L tâche est ainsi séparée en une partie préalable à toute détectionet qui, de ce fait peut être effectuée par une méthode sophistiquée et précise, et en une autre partie nécessitant un temps de réponse rapide.Le deuxièm outil d’indexation part d’un schéma identique de séparation de la tâche, mais utilise, pour sa part, une modélisation du langage par chaîne de Markov. Il est montré ans la thèse que cette modélisation offre, outre une augmentation des performances vis–vis du premier outil, une accélération du processus de recherche sur le treillis.Le dernier outil mis en oeuvre se base sur les développements récents d’une méthode d’ntraînement discriminant des modèles markoviens pour améliorer l’exactitude du treillis phonétique et ainsi produire des résultats de recherche de meilleure qualité.Finalement les résultats comparatifs entre les différents outils d’indexation sont utilsés pour tirer les conclusions, et envisager les perspectives de futurs développements.

Détection de mots-clés dans un flux de parole : Application à l’indexation de documents multimédias.