Session DEFT orale - O2
Vendredi 13 Juin - 11h30 12h30
-
papier 6006
Classification de textes en domaines et en genres en combinant morphosyntaxe et lexique
- Guillaume Cleuziou ( LIFO – Université d'Orléans)
- Céline Poudat ( ERTIM – INALCO)
- Résumé : Nous présentons dans cet article le bilan de notre participation au 4e DÉfi Fouille de Textes 2008. L'étude porte sur la problématique de la classification textuelle en domaines et en genres qui représente un enjeu pour la Recherche d'Information (RI). Sa mise en oeuvre nécessite notamment la sélection d'un ensemble de descripteurs adéquats. On considère généralement que les domaines sont corrélés au niveau du contenu (mots, termes, etc.) tandis que les genres sont discriminés au niveau morphosyntaxique. Malgré les bons résultats obtenus par ces choix méthodologiques, peu de travaux ont cherché à mesurer l'impact et la complémentarité des deux niveaux de description pour la classification. Le cadre pratique de ce défi permettra de compléter les premiers postulats formulés sur ce travail.
- article
-
papier 6008
Classifieur probabiliste avec Support Vector Machine (SVM) et Okapi
- Anh-Phuc Trinh ( Laboratoire d'Informatique de Paris 6)
- David Buffoni ( Laboratoire d'Informatique de Paris 6)
- Patrick Gallinari ( Laboratoire d'Informatique de Paris 6)
- Résumé : Ce papier présente le travail réalisé par l'équipe des jeunes chercheurs du LIP6 pour le 4ème DÉfi Fouille de Textes (DEFT'08). Cette année, le défi était de classifier les documents de 2 corpus différents en prenant en compte les variations en genre et en thème. Cet article présente un modèle de classification automatique sous la forme de SVMs estimant les probabilités a posteriori des classes pour chaque document.
- article