Session TALN orale - O6
Ressources
Mardi 10 Juin - 14h00 16h00
-
papier 1331
Construction d'un wordnet libre du français à partir de ressources multilingues
- Benoît Sagot ( INRIA)
- Darja Fiser ( Université de Ljubljana)
- Résumé : Cet article décrit la construction d'un Wordnet Libre du Français (WOLF) à partir du Princeton WordNet et de diverses ressources multilingues. Les lexèmes polysémiques ont été traités au moyen d'une approche reposant sur l'alignement en mots d'un corpus parallèle en cinq langues. Le lexique multilingue extrait a été désambiguïsé sémantiquement à l'aide des wordnets des langues concernées. Par ailleurs, une approche bilingue a été suffisante pour construire de nouvelles entrées à l'aide des mots monosémiques. Nous avons pour cela extrait des lexiques bilingues à partir de Wikipedia et de thésaurus. Le wordnet obtenu a été évalué par rapport au wordnet français issu du projet EuroWordNet. Les résultats sont encourageants, et des applications sont d'ores et déjà envisagées.
- article
-
papier 1347
Détermination des sens d'usage dans un réseau lexical construit à l'aide d'un jeu en ligne
- Mathieu Lafourcade ( LIRMM – Univ. Montpellier 2 - CNRS)
- Alain Joubert ( LIRMM – Univ. Montpellier 2 - CNRS)
- Résumé : Les informations lexicales, indispensables pour les tâches réalisées en TALN, sont difficiles à collecter. En effet, effectuée manuellement, cette tâche nécessite la compétence d'experts et la durée nécessaire peut être prohibitive, alors que réalisée automatiquement, les résultats peuvent être biaisés par les corpus de textes retenus. L'approche présentée ici consiste à faire participer un grand nombre de personnes à un projet contributif en leur proposant une application ludique accessible sur le web. A partir d'une base de termes préexistante, ce sont ainsi les joueurs qui vont construire le réseau lexical, en fournissant des associations qui ne sont validées que si elles sont proposées par au moins une paire d'utilisateurs. De plus, ces relations typées sont pondérées en fonction du nombre de paires d'utilisateurs qui les ont proposées. Enfin, nous abordons la question de la détermination des différents sens d'usage d'un terme, en analysant les relations entre ce terme et ses voisins immédiats dans le réseau lexical, avant de présenter brièvement la réalisation et les premiers résultats obtenus
- article
-
papier 1348
Modélisation normalisée LMF des dictionnaires électroniques éditoriaux de l'arabe
- Feten Baccar ( Laboratoire MIRACL)
- Aida Khemakhem ( Laboraoire MIRACL)
- Bilel Gargouri ( Laboratoire MIRACL)
- Kais Haddar ( Laboratoire MIRACL)
- Abdelmajid Ben-Hamadou ( Laboratoire MIRACL)
- Résumé : Le présent papier s'intéresse à l'élaboration des dictionnaires électroniques arabes à usage humain (éditorial). Il propose un modèle unifié et normalisé de ces dictionnaires en se référant à la future norme LMF (Lexical Markup Framework) ISO 24613. Ce modèle permet de construire des dictionnaires extensibles, sur lesquels on peut réaliser, grâce à une structuration fine et standard, des fonctions de consultation génériques adaptées aux besoins des utilisateurs. La mise en œuvre du modèle proposé est testée sur des dictionnaires existants de la langue arabe en utilisant, pour la consultation, le système ADIQTO (Arabic DIctionary Query TOols) que nous avons développé pour l'interrogation générique des dictionnaires normalisés de l'arabe.
- article
-
papier 1376
La polysémie régulière dans WordNet
- Francois-Regis Chaumartin ( Université Paris 7 - laboratoire ALPAGE)
- Lucie Barque ( Université Paris 7 - laboratoire LATTICE)
- Résumé : Cette étude propose un examen systématique des relations de polysémie dans le lexique électronique anglais WordNet. Elle exploite pour cela la hiérarchie des concepts (représentés par des synsets), et la définition associée à chacun de ces concepts. Le résultat est constitué d'un ensemble de règles qui nous ont permis d'identifier d'une façon largement automatisée, avec une précision voisine de 91%, plus de 2100 paires de synsets liés par une relation de polysémie régulière. Notre méthode permet aussi une désambiguïsation lexicale partielle des mots de la définition associée à ces synsets.
- article