Contribution à la modélisation du langage pour des applications de recherche documentaire et de traitement de la parole.

Résumé:

L’application des méthodes statistiques aux domaines de la recherche documentaire et de la reconnaissance automatique de la parole (RAP) prend une importance grandissante. Ce travail de thèse présente des solutions qui utilisent des modèles de langage dynamiques, suivant la théorie de l’information. Notre contribution est l’apport de nouvelles approches en modélisation du langage. Les applications développées sont plurielles : classification thématique de textes écrits ou du discours, segmentation thématique, et expansion de requête.

En classification thématique, l’objectif est d’assigner un label thématique à un segment de texte parmi un ensemble de labels possibles. Le modèle, dans ce cas, repose sur la comparaison entre la distribution statistique des mots contenus dans la mémoire cache d’un texte à un instant donné et les distributions statiques des mots clés des thématiques. Cette évaluation évolue dans le temps avec la prise en compte de nouveaux mots dans le cache. En combinant les décisions prises par ce modèle et par un ensemble d’unigrammes thématiques classiques, on détermine le thème d’un texte avec un degré de fiabilité supérieur à 80 %. Appliquéà des textes dictés, le modèle à base de mémoirecache nous permet une reconnaissance rapide des thèmes, ce qui laisse envisager l’utilisation, dans les systèmes de RAP, d’un modèle de langage plus approprié au domaine du texte dicté. Nous montrons alors que l’utilisation d’une combinaison linéaire d’un modèle bigramme général avec des modèles thématiques apporte un gain substantielde perplexité par rapport à l’utilisation unique d’un bigramme classique.

En segmentation thématique de textes écrits, on cherche à déterminer les frontières entre paragraphesde thèmes différents. Une possibilité pour repérer les changements de thèmes est d’utiliser le modèle à base de mémoire cache déjà développé pour la classification thématique. D’autres nouvelles méthodes ont également été testées. On a notamment cherché des solutions afin que la segmentation ne nécessite pas de connaissances préalables sur les thèmes, contrairement au modèle à base de mémoire cache. Pour ce faire, on donne de nouvelles représentations de l’histoire d’un mot. Les résultats obtenus sont de moindre qualité par rapport au modèle thématique, cependant l’ensemble des résultats ainsi obtenus montrent que différentes stratégies doivent etre utilisées selon les valeurs de rappel et de précision que l’on souhaite.

Ce type d’approche a également été appliqué à la recherche documentaire. Le but en expansion de requete est d’ajouter de nouveaux termes pertinents à la requete d’un utilisateur afin de rendre les réponses, fournies par le système de recherche documentaire, plus précises. Notre modèle évalue la distance entre la distributionde probabilités des termes représentatifs des documents fournis par le système avec la requete initiale et la distribution de ces memes termes dans la collection entiere. Ces évaluations permettent de donner un score à des termes candidats qui formeront la requete étendue. Ce modèle améliore uniformément les résultats par rapport à ceux obtenus avec la requete initiale, mais aussi par rapport à d’autres fonctions d’évaluation, issues de la littérature, pour l’ordonnancement des termes.