Marc El-Bèze
Laboratoire Informatique d'Avignon
Session TALN orale O2 Extraction d'information Lundi 9 Juin - 13h30 15h00
-
papier 1357
Extraction automatique d'informations à partir de micro-textes non structurés
- Cédric Vidrequin ( Laboratoire Informatique d'Avignon)
- Juan-Manuel Torres-Moreno ( Laboratoire Informatique d'Avignon)
- Jean-Jacques Schneider ( Société SEMANTIA)
- Marc El-Bèze ( Laboratoire Informatique d'Avignon)
- Résumé : Nous présentons dans cet article une méthode d'extraction automatique d'informations sur des textes de très petite taille, non structurés. Nous travaillons sur des textes dont la rédaction n'est pas normalisée, avec très peu de mots pour caractériser chaque information. Les textes ne contiennent pas ou très peu de phrases. Il s'agit le plus souvent de morceaux de phrases ou d'expressions longues de quelques mots. Nous comparons plusieurs méthodes d'extraction, dont certaines sont entièrement automatiques et d'autres utilisent en partie une certaine connaissances du domaine. Cette connaissance se veut minimaliste de façon à réduire le plus possible le travail manuel en amont. Nous présentons enfin nos résultats qui sont équivalents à ceux de la littérature du point de vue de la précision, mais pour lesquels le rappel est supérieur.
- article
Session TALN orale O2 Extraction d'information Lundi 9 Juin - 13h30 15h00
-
papier 1366
Quelles combinaisons de scores et de critères numériques pour un système de Questions/Réponses ?
- Laurent Gillard ( CEA)
- Patrice Bellot ( LIA, Université d'Avignon)
- Marc El-Bèze ( LIA, Université d'Avignon)
- Résumé : Dans cet article, nous présentons une discussion sur la combinaison de différents scores et critères numériques pour la sélection finale d'une réponse dans la partie en charge des questions factuelles du système de Questions/Réponses développé au LIA. Ces scores et critères numériques sont dérivés de ceux obtenus en sortie de deux composants cruciaux pour ce système : celui de sélection des passages susceptibles de contenir une réponse et celui d'extraction et de sélection d'une réponse. Ils sont étudiés au regard de leur expressivité. Des comparaisons sont faites avec des approches de sélection de passages mettant en œuvre des scores conventionnels en recherche d'information. Parallèlement, l'influence de la taille des contextes (en nombre de phrases) est évaluée. Cela permet de mettre en évidence que le choix de passages constitués de trois phrases autour d'une réponse candidate, avec une sélection des réponses basée sur une combinaison entre un score de passage de type Lucène ou Cosine et d'un score de compacité apparaît un compromis intéressant.
- article
Session TALN poster P1P2 Jeudi 12 Juin - 14h00 17h00
-
papier 1322
E-Gen: Profilage automatique de candidatures
- Rémy Kessler (Laboratoire Informatique d'Avignon)
- Juan-Manuel Torres-Moreno ( Laboratoire Informatique d'Avignon)
- Marc El-Bèze ( Laboratoire Informatique d'Avignon)
- Résumé : La croissance exponentielle de l'Internet a permis le développement de sites d'offres d'emploi en ligne. Le système E-Gen (Traitement automatique d'offres d'emploi) a pour but de permettre l'analyse et la catégorisation d'offres d'emploi ainsi qu'une analyse et classification des réponses des candidats (Lettre de motivation et CV). Nous présentons ici les travaux réalisés afin de résoudre la seconde partie : dans un premier temps, nous utilisons une représentation de texte après différents processus de filtrage et de lemmatisation pour effectuer une classification des pièces jointes contenus dans le mail à l'aide de machines à support vectoriel. Par la suite, une évaluation de la candidature est effectuée à l'aide de différents classifieurs.
- article
Session DEFT orale O1 Vendredi 13 Juin - 09h30 11h00
-
papier 6003
En finir avec la confusion des genres pour mieux séparer les thèmes
- Frédéric Béchet ( LIA, Université d'Avignon)
- Marc El-Bèze ( LIA, Université d'Avignon)
- Juan-Manuel Torres-Moreno ( LIA, Université d'Avignon)
- Résumé : Nous présentons des modèles d'apprentissage probabilistes appliqués à la tâche de classification telle que définie dans le cadre du défi DEFT'08 : la prise en compte des variations en genre et en thème dans un système de classification automatique. Une comparaison entre les résultats en validation et en tests montrent une coïncidence remarquable, et mettent en évidence la robustesse et les performances de la fusion que nous proposons. Les résultats que nous obtenons, en termes de précision, rappel et F-score strict sur les corpus de test sont très encourageants.
- article