Session TALN orale - O2
Extraction d'information
Lundi 9 Juin - 13h30 15h00
-
papier 1332
Un modèle multi-sources pour la segmentation en sujets de journaux radiophoniques
- Stéphane Huet ( IRISA, Université de Rennes 1)
- Guillaume Gravier ( IRISA, CNRS)
- Pascale Sébillot ( IRISA, INSA de Rennes)
- Résumé : Nous présentons une méthode de segmentation de journaux radiophoniques en sujets, basée sur la prise en compte d'indices lexicaux, syntaxiques et acoustiques. Partant d'un modèle statistique existant de segmentation thématique, exploitant la notion de cohésion lexicale, nous étendons le formalisme pour y inclure des informations d'ordre syntaxique et acoustique. Les résultats expérimentaux montrent que le seul modèle de cohésion lexicale ne suffit pas pour le type de documents étudié en raison de la taille variable des segments et de l'absence d'un lien direct entre segment et thème. L'utilisation d'informations syntaxiques et acoustiques permet une amélioration substantielle de la segmentation obtenue.
- article
-
papier 1357
Extraction automatique d'informations à partir de micro-textes non structurés
- Cédric Vidrequin ( Laboratoire Informatique d'Avignon)
- Juan-Manuel Torres-Moreno ( Laboratoire Informatique d'Avignon)
- Jean-Jacques Schneider ( Société SEMANTIA)
- Marc El-Bèze ( Laboratoire Informatique d'Avignon)
- Résumé : Nous présentons dans cet article une méthode d'extraction automatique d'informations sur des textes de très petite taille, non structurés. Nous travaillons sur des textes dont la rédaction n'est pas normalisée, avec très peu de mots pour caractériser chaque information. Les textes ne contiennent pas ou très peu de phrases. Il s'agit le plus souvent de morceaux de phrases ou d'expressions longues de quelques mots. Nous comparons plusieurs méthodes d'extraction, dont certaines sont entièrement automatiques et d'autres utilisent en partie une certaine connaissances du domaine. Cette connaissance se veut minimaliste de façon à réduire le plus possible le travail manuel en amont. Nous présentons enfin nos résultats qui sont équivalents à ceux de la littérature du point de vue de la précision, mais pour lesquels le rappel est supérieur.
- article
-
papier 1366
Quelles combinaisons de scores et de critères numériques pour un système de Questions/Réponses ?
- Laurent Gillard ( CEA)
- Patrice Bellot ( LIA, Université d'Avignon)
- Marc El-Bèze ( LIA, Université d'Avignon)
- Résumé : Dans cet article, nous présentons une discussion sur la combinaison de différents scores et critères numériques pour la sélection finale d'une réponse dans la partie en charge des questions factuelles du système de Questions/Réponses développé au LIA. Ces scores et critères numériques sont dérivés de ceux obtenus en sortie de deux composants cruciaux pour ce système : celui de sélection des passages susceptibles de contenir une réponse et celui d'extraction et de sélection d'une réponse. Ils sont étudiés au regard de leur expressivité. Des comparaisons sont faites avec des approches de sélection de passages mettant en œuvre des scores conventionnels en recherche d'information. Parallèlement, l'influence de la taille des contextes (en nombre de phrases) est évaluée. Cela permet de mettre en évidence que le choix de passages constitués de trois phrases autour d'une réponse candidate, avec une sélection des réponses basée sur une combinaison entre un score de passage de type Lucène ou Cosine et d'un score de compacité apparaît un compromis intéressant.
- article