Structuration automatique de documents audio - Association Francophone de la Communication Parlée

Résumé :
La structuration thématique est une branche du traitement automatique du
langage naturel. Elle permet à l’utilisateur de prendre rapidement connaissance
de l’ensemble des thèmes traités dans un document contenant une pluralité de
thèmes. La structuration thématique est également utilisée indirectement pour
améliorer d’autres applications comme la recherche d’information ou le résumé
automatique.
Dans cette thèse, nous décrivons notre système de structuration thématique
composé de deux modules complémentaires : celui de segmentation thématique et celui de titrage. Le premier consiste à détecter les changements de thèmes de telle sorte que la zone entourée par deux frontières (i.e. segment) traite d’une seule thématique. L’ensemble des segments retournés est alors identifié par des étiquettes anonymes. Le rôle du seconde module est, quand à lui, d’attribuer un titre à chaque segment thématique.
Les principales contributions de cette thèse portent sur l’enrichissement de la représentation vectorielle de l’émission. Nous proposons deux approches concernant la pondération : l’approche itérative et l’approche structurelle. La pondération permet de pénaliser les mots non discriminants et de donner plus de poids aux mots importants. Dans les deux approches, les poids sont estimés à partir du contenu lui-même (intra-document). Celui-ci est alors considéré comme une collection de documents mono-thème.
Nous introduisons également la notion de la cohésion de la parole qui regroupe
la distribution des mots et des locuteurs dans le calcul de similarité entre les différentes parties de l’émission. La représentation vectorielle est renforcée par des relations sémantiques ; nous utilisons des relations issues des articles de presse du même jour que l’émission à segmenter. Par ailleurs, nous avons proposé deux nouvelles métriques d’évaluation qui reflètent mieux la qualité de segmentation : CouvN et CouvD. L’idée est de mesurer la performance du système en terme de nombre de segments correctement retournés plutôt que de s’intéresser au nombre de frontières. Concernant le titrage automatique, l’approche que nous avons proposée consiste à chercher les articles de presse traitant du même thème que celui du segment. Le titre du segment est celui de l’article le plus proche thématiquement. Enfin, nous avons proposé une nouvelle métrique d’évaluation pour la chaîne complète : de la segmentation au titrage automatique.
Mots-clés : Segmentation thématique, titrage automatique, représentation
vectorielle, cohésion de la parole, pondération intra-document, relations sémantiques.