Session DEFT orale - O1

Vendredi 13 Juin - 09h30 11h00

papier 6001 Présentation de DEFT'08 (DEfi Fouille de Textes)

Cyril Grouin  ( LIMSI-CNRS)

Jean-Baptiste Berthelin  ( LIMSI-CNRS)

Sarra El-Ayari  ( LIMSI-CNRS)

Martine Hurault-Plantet  ( LIMSI-CNRS)

Sylvain Loiseau  ( LIMSI-CNRS)

Résumé : Dans le cadre de la campagne d'évaluation annuelle DEFT (défi fouille de textes), la quatrième édition a pour objet l'identification de catégories textuelles en genre et en thème. Nous avons utilisé des articles provenant de deux sources, Le Monde et Wikipédia, chaque article ayant été rattaché à l'une des neuf catégories extraites de ces corpus. Cet article présente l'objectif de la tâche, les corpus utilisés ainsi que les prétraitements effectués sur ces corpus. Nous reviendrons également sur les tests manuels que nous avons réalisés pour mesurer la faisabilité de la tâche. Enfin, nous détaillerons les mesures utilisées pour évaluer les résultats des participants.

article

papier 6002 Résultats de l'édition 2008 du DÉfi Fouille de Textes

Martine Hurault-Plantet  ( LIMSI-CNRS)

Cyril Grouin  ( LIMSI-CNRS)

Sarra El-Ayari  ( LIMSI-CNRS)

Jean-Baptiste Berthelin  ( LIMSI-CNRS)

Sylvain Loiseau  ( LIMSI-CNRS)

Patrick Paroubek  ( LIMSI-CNRS)

Résumé : Cet article présente les résultats obtenus par les participants de l'édition 2008 du défi fouille de textes (DEFT). Ces résultats se révèlent particulièrement élevés et homogènes entre chaque participant, avec une réussite accrue sur l'identification du genre par opposition à l'identification des thèmes. Dans cet article, nous revenons sur l'ensemble des résultats en opposant les F-scores stricts aux F-scores de confiance . nous mettons également en avant l'incidence du score de confiance sur les résultats. Enfin, nous présentons les méthodes utilisées par les participants.

article

papier 6003 En finir avec la confusion des genres pour mieux séparer les thèmes

Frédéric Béchet  ( LIA, Université d'Avignon)

Marc El-Bèze  ( LIA, Université d'Avignon)

Juan-Manuel Torres-Moreno  ( LIA, Université d'Avignon)

Résumé : Nous présentons des modèles d'apprentissage probabilistes appliqués à la tâche de classification telle que définie dans le cadre du défi DEFT'08 : la prise en compte des variations en genre et en thème dans un système de classification automatique. Une comparaison entre les résultats en validation et en tests montrent une coïncidence remarquable, et mettent en évidence la robustesse et les performances de la fusion que nous proposons. Les résultats que nous obtenons, en termes de précision, rappel et F-score strict sur les corpus de test sont très encourageants.

article

papier 6004 Trois approches du GREYC pour la classification de textes

Thierry Charnois  ( GREYC, Université de Caen)

Antoine Doucet  ( GREYC, Université de Caen)

Yann Mathet  ( GREYC, Université de Caen)

François Rioult  ( GREYC, Université de Caen)

Résumé : Cet article présente la participation de l'équipe du GREYC à DEFT'08, en détaillant les différentes approches mises en place ainsi que les résultats obtenus. Plusieurs techniques très différentes ont été étudiées et mises en oeuvre. D'une part, un traitement à base de n-grammes a constitué un classifieur indépendant. D'autre part, deux autres traitements s'appuient sur un classifieur supervisé par règles d'association, qu'ils alimentent chacun avec des indices provenant d'une chaîne de traitements linguistiques pour l'un, et d'extraction de séquences pour l'autre.

article