Juan-Manuel Torres-Moreno
Laboratoire Informatique d'Avignon
Session TALN orale O2 Extraction d'information Lundi 9 Juin - 13h30 15h00
-
papier 1357
Extraction automatique d'informations à partir de micro-textes non structurés
- Cédric Vidrequin ( Laboratoire Informatique d'Avignon)
- Juan-Manuel Torres-Moreno ( Laboratoire Informatique d'Avignon)
- Jean-Jacques Schneider ( Société SEMANTIA)
- Marc El-Bèze ( Laboratoire Informatique d'Avignon)
- Résumé : Nous présentons dans cet article une méthode d'extraction automatique d'informations sur des textes de très petite taille, non structurés. Nous travaillons sur des textes dont la rédaction n'est pas normalisée, avec très peu de mots pour caractériser chaque information. Les textes ne contiennent pas ou très peu de phrases. Il s'agit le plus souvent de morceaux de phrases ou d'expressions longues de quelques mots. Nous comparons plusieurs méthodes d'extraction, dont certaines sont entièrement automatiques et d'autres utilisent en partie une certaine connaissances du domaine. Cette connaissance se veut minimaliste de façon à réduire le plus possible le travail manuel en amont. Nous présentons enfin nos résultats qui sont équivalents à ceux de la littérature du point de vue de la précision, mais pour lesquels le rappel est supérieur.
- article
Session TALN orale O4 Résumé Automatique Lundi 9 Juin - 16h00 17h00
-
papier 1356
Enertex : un système basé sur l'énergie textuelle
- Silvia Fernandez ( Universite d'Avignon)
- Eric Sanjuan ( Universite d'Avignon)
- Juan-Manuel Torres-Moreno ( Universite d'Avignon)
- Résumé : Dans cet article, nous présentons des applications de l'énergie textuelle, approche de réseaux de neurones inspirée de la physique statistique de systèmes magnétiques, dans le Traitement Automatique de la Langue Naturelle. Nous avons appliqué cette approche aux problèmes de résumé automatique multi-documents et de détection de frontières thématiques. Les résultats, en trois langues : anglais, français et espagnol, sont très encourageants.
- article
Session TALN poster P1P2 Jeudi 12 Juin - 14h00 17h00
-
papier 1322
E-Gen: Profilage automatique de candidatures
- Rémy Kessler (Laboratoire Informatique d'Avignon)
- Juan-Manuel Torres-Moreno ( Laboratoire Informatique d'Avignon)
- Marc El-Bèze ( Laboratoire Informatique d'Avignon)
- Résumé : La croissance exponentielle de l'Internet a permis le développement de sites d'offres d'emploi en ligne. Le système E-Gen (Traitement automatique d'offres d'emploi) a pour but de permettre l'analyse et la catégorisation d'offres d'emploi ainsi qu'une analyse et classification des réponses des candidats (Lettre de motivation et CV). Nous présentons ici les travaux réalisés afin de résoudre la seconde partie : dans un premier temps, nous utilisons une représentation de texte après différents processus de filtrage et de lemmatisation pour effectuer une classification des pièces jointes contenus dans le mail à l'aide de machines à support vectoriel. Par la suite, une évaluation de la candidature est effectuée à l'aide de différents classifieurs.
- article
Session DEFT orale O1 Vendredi 13 Juin - 09h30 11h00
-
papier 6003
En finir avec la confusion des genres pour mieux séparer les thèmes
- Frédéric Béchet ( LIA, Université d'Avignon)
- Marc El-Bèze ( LIA, Université d'Avignon)
- Juan-Manuel Torres-Moreno ( LIA, Université d'Avignon)
- Résumé : Nous présentons des modèles d'apprentissage probabilistes appliqués à la tâche de classification telle que définie dans le cadre du défi DEFT'08 : la prise en compte des variations en genre et en thème dans un système de classification automatique. Une comparaison entre les résultats en validation et en tests montrent une coïncidence remarquable, et mettent en évidence la robustesse et les performances de la fusion que nous proposons. Les résultats que nous obtenons, en termes de précision, rappel et F-score strict sur les corpus de test sont très encourageants.
- article