Jean-Jacques Schneider
Société SEMANTIA
Session TALN orale O2 Extraction d'information Lundi 9 Juin - 13h30 15h00
-
papier 1357
Extraction automatique d'informations à partir de micro-textes non structurés
- Cédric Vidrequin ( Laboratoire Informatique d'Avignon)
- Juan-Manuel Torres-Moreno ( Laboratoire Informatique d'Avignon)
- Jean-Jacques Schneider ( Société SEMANTIA)
- Marc El-Bèze ( Laboratoire Informatique d'Avignon)
- Résumé : Nous présentons dans cet article une méthode d'extraction automatique d'informations sur des textes de très petite taille, non structurés. Nous travaillons sur des textes dont la rédaction n'est pas normalisée, avec très peu de mots pour caractériser chaque information. Les textes ne contiennent pas ou très peu de phrases. Il s'agit le plus souvent de morceaux de phrases ou d'expressions longues de quelques mots. Nous comparons plusieurs méthodes d'extraction, dont certaines sont entièrement automatiques et d'autres utilisent en partie une certaine connaissances du domaine. Cette connaissance se veut minimaliste de façon à réduire le plus possible le travail manuel en amont. Nous présentons enfin nos résultats qui sont équivalents à ceux de la littérature du point de vue de la précision, mais pour lesquels le rappel est supérieur.
- article