Stéphane Huet
IRISA, Université de Rennes 1
Session TALN orale O2 Extraction d'information Lundi 9 Juin - 13h30 15h00
-
papier 1332
Un modèle multi-sources pour la segmentation en sujets de journaux radiophoniques
- Stéphane Huet ( IRISA, Université de Rennes 1)
- Guillaume Gravier ( IRISA, CNRS)
- Pascale Sébillot ( IRISA, INSA de Rennes)
- Résumé : Nous présentons une méthode de segmentation de journaux radiophoniques en sujets, basée sur la prise en compte d'indices lexicaux, syntaxiques et acoustiques. Partant d'un modèle statistique existant de segmentation thématique, exploitant la notion de cohésion lexicale, nous étendons le formalisme pour y inclure des informations d'ordre syntaxique et acoustique. Les résultats expérimentaux montrent que le seul modèle de cohésion lexicale ne suffit pas pour le type de documents étudié en raison de la taille variable des segments et de l'absence d'un lien direct entre segment et thème. L'utilisation d'informations syntaxiques et acoustiques permet une amélioration substantielle de la segmentation obtenue.
- article