Marc El-Bèze

Laboratoire Informatique d'Avignon

Session TALN orale O2 Extraction d'information Lundi 9 Juin - 13h30 15h00

papier 1357 Extraction automatique d'informations à partir de micro-textes non structurés

Cédric Vidrequin  ( Laboratoire Informatique d'Avignon)

Juan-Manuel Torres-Moreno  ( Laboratoire Informatique d'Avignon)

Jean-Jacques Schneider  ( Société SEMANTIA)

Marc El-Bèze  ( Laboratoire Informatique d'Avignon)

Résumé : Nous présentons dans cet article une méthode d'extraction automatique d'informations sur des textes de très petite taille, non structurés. Nous travaillons sur des textes dont la rédaction n'est pas normalisée, avec très peu de mots pour caractériser chaque information. Les textes ne contiennent pas ou très peu de phrases. Il s'agit le plus souvent de morceaux de phrases ou d'expressions longues de quelques mots. Nous comparons plusieurs méthodes d'extraction, dont certaines sont entièrement automatiques et d'autres utilisent en partie une certaine connaissances du domaine. Cette connaissance se veut minimaliste de façon à réduire le plus possible le travail manuel en amont. Nous présentons enfin nos résultats qui sont équivalents à ceux de la littérature du point de vue de la précision, mais pour lesquels le rappel est supérieur.

article

Session TALN orale O2   Extraction d'information   Lundi 9 Juin - 13h30 15h00

papier 1366 Quelles combinaisons de scores et de critères numériques pour un système de Questions/Réponses ?

Laurent Gillard  ( CEA)

Patrice Bellot  ( LIA, Université d'Avignon)

Marc El-Bèze  ( LIA, Université d'Avignon)

Résumé : Dans cet article, nous présentons une discussion sur la combinaison de différents scores et critères numériques pour la sélection finale d'une réponse dans la partie en charge des questions factuelles du système de Questions/Réponses développé au LIA. Ces scores et critères numériques sont dérivés de ceux obtenus en sortie de deux composants cruciaux pour ce système : celui de sélection des passages susceptibles de contenir une réponse et celui d'extraction et de sélection d'une réponse. Ils sont étudiés au regard de leur expressivité. Des comparaisons sont faites avec des approches de sélection de passages mettant en œuvre des scores conventionnels en recherche d'information. Parallèlement, l'influence de la taille des contextes (en nombre de phrases) est évaluée. Cela permet de mettre en évidence que le choix de passages constitués de trois phrases autour d'une réponse candidate, avec une sélection des réponses basée sur une combinaison entre un score de passage de type Lucène ou Cosine et d'un score de compacité apparaît un compromis intéressant.

article

Session TALN poster P1P2   Jeudi 12 Juin - 14h00 17h00

papier 1322 E-Gen: Profilage automatique de candidatures

Rémy Kessler  (Laboratoire Informatique d'Avignon)

Juan-Manuel Torres-Moreno  ( Laboratoire Informatique d'Avignon)

Marc El-Bèze  ( Laboratoire Informatique d'Avignon)

Résumé : La croissance exponentielle de l'Internet a permis le développement de sites d'offres d'emploi en ligne. Le système E-Gen (Traitement automatique d'offres d'emploi) a pour but de permettre l'analyse et la catégorisation d'offres d'emploi ainsi qu'une analyse et classification des réponses des candidats (Lettre de motivation et CV). Nous présentons ici les travaux réalisés afin de résoudre la seconde partie : dans un premier temps, nous utilisons une représentation de texte après différents processus de filtrage et de lemmatisation pour effectuer une classification des pièces jointes contenus dans le mail à l'aide de machines à support vectoriel. Par la suite, une évaluation de la candidature est effectuée à l'aide de différents classifieurs.

article

Session DEFT orale O1   Vendredi 13 Juin - 09h30 11h00

papier 6003 En finir avec la confusion des genres pour mieux séparer les thèmes

Frédéric Béchet  ( LIA, Université d'Avignon)

Marc El-Bèze  ( LIA, Université d'Avignon)

Juan-Manuel Torres-Moreno  ( LIA, Université d'Avignon)

Résumé : Nous présentons des modèles d'apprentissage probabilistes appliqués à la tâche de classification telle que définie dans le cadre du défi DEFT'08 : la prise en compte des variations en genre et en thème dans un système de classification automatique. Une comparaison entre les résultats en validation et en tests montrent une coïncidence remarquable, et mettent en évidence la robustesse et les performances de la fusion que nous proposons. Les résultats que nous obtenons, en termes de précision, rappel et F-score strict sur les corpus de test sont très encourageants.

article

Marc El-Bèze

Laboratoire Informatique d'Avignon

Session TALN orale O2 Extraction d'information Lundi 9 Juin - 13h30 15h00

Session TALN orale O2 Extraction d'information Lundi 9 Juin - 13h30 15h00

Session TALN poster P1P2 Jeudi 12 Juin - 14h00 17h00

Session DEFT orale O1 Vendredi 13 Juin - 09h30 11h00