Modélisation linguistique pour l’indexation automatique de documents audiovisuels.

Résumé:

La plupart des méthodes d’indexation de documents audiovisuels sont en pratique manuelles. En France, l’Institut national de l’audiovisuel (INA) archive et indexe tous les jours plus de 20 chaînes de radio ou de télévision, ce qui représente plus de 100~000 heures par an auxquelles s’ajoutent plus d’un million d’heures déjà archivées. L’inclusion de traitements automatiques dans le processus d’indexation doit donc être pensé afin de répondre aux usages réels d’un institut comme l’INA, et aux spécificités de l’objet audiovisuel. L’état de l’art en matière d’indexation automatique de documents audiovisuels est constitué d’un système de reconnaissance automatique de la parole allié à des techniques de recherches d’information. La transcription automatique de la bande sonore est donc l’accès premier au contenu audiovisuel et les erreurs qu’elle peut contenir en détermine la pertinence. Les erreurs de transcription sont principalement dues à l’écart entre ces modèles et la réalité rencontrée dans les documents audiovisuels. En particulier, le contenu lexical et linguistique des transcriptions automatiques est conditionné par le vocabulaire et le modèle de langage du système.

Cette thèse porte sur l’adaptation du vocabulaire et du modèle de langage d’un système de transcription automatique en vue de l’indexation de documents audiovisuels qu’ils soient issus d’archives, ou collectés quotidiennement. Dans les deux cas, une des difficultés est de disposer de données au format électronique, qui soient appropriées et contemporaines des documents à transcrire. La première solution explorée dans cette thèse est de construire un modèle de langage dont le vocabulaire est ouvert, et qui peut être modifié de manière interactive. La seconde consiste à utiliser des données provenant de sites internet pour constituer les ressources textuelles pertinentes et contemporaines de l’émission. La solution proposée pour construire un modèle de langage à vocabulaire ouvert s’appuie sur la technique du repli lexical. Ce modèle est expérimenté sur un corpus de journaux télévisés. Lorsque les mots hors vocabulaire nouveaux sont introduits manuellement, près de 80% de leurs occurrences sont reconnus. Cela permet une réduction du taux d’erreur sur le mots de 2.6% absolu.

Les expériences sur les documents d’archive utilisent le corpus ECHO qui couvre une période allant des années 40 à 90. Les données d’apprentissage du modèle de langage datent principalement des années 90. Cette différence d’époque se traduit par une augmentation de la perplexité pouvant aller jusqu’à 40%. Un modèle de langage d’époque est estimé à partir de textes anciens collectés sur des sites internet. Le modèle de référence est alors adapté en l’interpolant avec ce modèle. Grâce à cette méthode, la réduction de la perplexité observée sur les documents des années 40 est de 9% et décroît jusqu’à s’annuler pour les années 90. Ces gains en perplexité n’impliquent pas de réduction significative du taux d’erreur sur les mots. Pour la transcription automatique des journaux télévisés diffusés tous les jours, une expérimentation quotidienne est effectuée sur le mois de janvier 2002. L’objectif est de développer des méthodes originales permettant d’adapter le vocabulaire et les modèles de langage à partir de données d’adaptation collectées le jour même sur des sites internet. Afin d’étudier le décalage entre le corpus d’adaptation et le corpus de test, l’expérience est menée sur trois corpus de test provenant de média distincts. Suivant les cas, les techniques développées permettent un gain relatif pouvant aller jusqu’à 50% sur la couverture lexicale, et jusqu’à 25% sur les performances de reconnaissance.