Session TALN orale - O9

Etiquetage et indexation

Jeudi 12 Juin - 10h30 12h00

papier 1343 Etude de la corrélation entre morphosyntaxe et sémantique dans une perspective d'étiquetage automatique de textes médicaux arabes

Tatiana El-Khoury  ( TIMC-IMAG - Université Joseph Fourier- Grenoble 1)

Résumé : Cet article se propose d'étudier les relations sémantiques unissant base et expansion au sein des termes médicaux arabes de type > N+N >, particulièrement ceux dont la base est un déverbal. En étudiant les relations sémantiques établies par une base déverbale, ce travail tente d'attirer l'attention sur l'interpénétration du sémantique et du morphosyntaxique et de montrer que, dans une large mesure, la structure morphosyntaxique de la base détermine l'éventail des possibilités relationnelles. La découverte de régularités dans le comportement de la base déverbale permet de prédire le type de relations que peut établir cette base avec son expansion pavant ainsi la voie à un traitement automatique et un travail d'étiquetage sémantique des textes médicaux arabes.

article

papier 1345 Influence de la qualité de l'étiquetage sur le chunking: une corrélation dépendant de la taille des chunks

Philippe Blache  ( Laboratoire Parole et Langage, CNRS & Université de Provence)

Stéphane Rauzy  ( Laboratoire Parole et Langage, CNRS & Université de Provence)

Résumé : Nous montrons dans cet article qu'il existe une corrélation étroite existant entre la qualité de l'étiquetage morpho-syntaxique et les performances des chunkers. Cette corrélation devient linéaire lorsque la taille des chunks est limitée. Nous appuyons notre démonstration sur la base d'une expérimentation conduite suite à la campagne d'évaluation Passage 2007 (cf. de la Clergerie et al. (2008)). Nous analysons pour cela les comportements de deux analyseurs ayant participé à cette campagne. L'interprétation des résultats montre que la tâche de chunking, lorsqu'elle vise des chunks courts, peut être assimilée à une tâche de >super-étiquetage>.

article

papier 1346 Apprentissage artificiel de règles d'indexation pour MEDLINE

Aurélie Névéol  ( U.S. National Library of Medicine)

Vincent Claveau  ( IRISA)

Résumé : L'indexation est une composante importante de tout système de recherche d'information. Dans MEDLINE, la base documentaire de référence pour la littérature du domaine biomédical, le contenu des articles référencés est indexé à l'aide de descripteurs issus du thésaurus MeSH. Avec l'augmentation constante de publications à indexer pour maintenir la base à jour, le besoin d'outils automatiques se fait pressant pour les indexeurs. Dans cet article, nous décrivons l'utilisation et l'adaptation la Programmation Logique Inductive (PLI) pour découvrir des règles d'indexation permettant de générer automatiquement des recommandations d'indexation pour MEDLINE. Les résultats obtenus par cette approche originale sont très satisfaisants comparés à ceux obtenus à l'aide de règles manuelles lorsque celles-ci existent. Ainsi, les jeux de règles obtenus par PLI devraient être prochainement intégrés au système produisant les recommandations d'indexation automatique pour MEDLINE.

article