Céline Poudat
ERTIM – INALCO
Session DEFT orale O2 Vendredi 13 Juin - 11h30 12h30
-
papier 6006
Classification de textes en domaines et en genres en combinant morphosyntaxe et lexique
- Guillaume Cleuziou ( LIFO – Université d'Orléans)
- Céline Poudat ( ERTIM – INALCO)
- Résumé : Nous présentons dans cet article le bilan de notre participation au 4e DÉfi Fouille de Textes 2008. L'étude porte sur la problématique de la classification textuelle en domaines et en genres qui représente un enjeu pour la Recherche d'Information (RI). Sa mise en oeuvre nécessite notamment la sélection d'un ensemble de descripteurs adéquats. On considère généralement que les domaines sont corrélés au niveau du contenu (mots, termes, etc.) tandis que les genres sont discriminés au niveau morphosyntaxique. Malgré les bons résultats obtenus par ces choix méthodologiques, peu de travaux ont cherché à mesurer l'impact et la complémentarité des deux niveaux de description pour la classification. Le cadre pratique de ce défi permettra de compléter les premiers postulats formulés sur ce travail.
- article