Patrice Bellot
LIA / Université d'Avignon
Session TALN orale O2 Extraction d'information Lundi 9 Juin - 13h30 15h00
-
papier 1366
Quelles combinaisons de scores et de critères numériques pour un système de Questions/Réponses ?
- Laurent Gillard ( CEA)
- Patrice Bellot ( LIA, Université d'Avignon)
- Marc El-Bèze ( LIA, Université d'Avignon)
- Résumé : Dans cet article, nous présentons une discussion sur la combinaison de différents scores et critères numériques pour la sélection finale d'une réponse dans la partie en charge des questions factuelles du système de Questions/Réponses développé au LIA. Ces scores et critères numériques sont dérivés de ceux obtenus en sortie de deux composants cruciaux pour ce système : celui de sélection des passages susceptibles de contenir une réponse et celui d'extraction et de sélection d'une réponse. Ils sont étudiés au regard de leur expressivité. Des comparaisons sont faites avec des approches de sélection de passages mettant en œuvre des scores conventionnels en recherche d'information. Parallèlement, l'influence de la taille des contextes (en nombre de phrases) est évaluée. Cela permet de mettre en évidence que le choix de passages constitués de trois phrases autour d'une réponse candidate, avec une sélection des réponses basée sur une combinaison entre un score de passage de type Lucène ou Cosine et d'un score de compacité apparaît un compromis intéressant.
- article
Session TALN poster P1P2 Jeudi 12 Juin - 14h00 17h00
-
papier 1342
Repérage de citations, classification des styles de discours et identification des constituants citationnels en écrits journalistiques
- Fabien Poulard ( LINA / Université de Nantes)
- Thierry Waszak ( LIA / Université d'Avignon)
- Nicolas Hernandez ( LINA / Université de Nantes)
- Patrice Bellot ( LIA / Université d'Avignon)
- Résumé : Ce travail s'inscrit dans le cadre du projet ANR PIITHIE (Plagiats et Impacts de l'Information Textuelle recHerchée dans un contexte InterlinguE). Dans ce contexte, le repérage de citations et de ses constituants est primordial puisqu'il peut amener à évaluer le caractère licite ou illicite d'une reprise (source citée ou non). Nous proposons ici une comparaison de méthodes automatiques pour le repérage de ces informations et rapportons une évaluation quantitative de celles-ci. Un corpus d'écrits journalistiques français a été manuellement annoté pour nous servir de base d'apprentissage et de test.
- article