Session TALN poster - P1P2

Jeudi 12 Juin - 14h00 17h00

papier 1307 Y a-t-il une véritable équivalence entre les propositions syntaxiques du français et du japonais ?

Yayoi Nakamura-Delloye  ( Université Paris 7 - LATTICE)

Résumé : La présente contribution part de nos constats réalisés à partir des résultats d'évaluation de notre système d'alignement des propositions de textes français-japonais. La présence importante de structures fondamentalement difficiles à aligner et les résultats peu satisfaisants de différentes méthodes de mise en correspondance des mots nous ont finalement amené à remettre en cause l'existence même d'équivalence au niveau des propositions syntaxiques entre le français et le japonaises. Afin de compenser les défauts que nous avions découverts, nous proposons des opérations permettant de restaurer l'équivalence des propositions alignées et d'améliorer la qualité des corpus alignés.

article

papier 1311 Calculs d'unification sur les arbres de dérivation TAG

Sylvain Schmitz  ( LORIA, INRIA Nancy Grand Est)

Joseph Le-Roux  ( LORIA, Université de Nancy 2)

Résumé : À la différence des arbres dérivés, les arbres de dérivation d'une grammaire d'arbres adjoints offrent une vue proche de la sémantique, propice à la génération de texte. Dans cet article, nous définissons un formalisme capable de produire les arbres de dérivation d'une grammaire d'arbres adjoints avec structures de traits, et proposons une traduction optimisée de la grammaire vers ce formalisme.

article

papier 1312 Comparaison de méthodes lexicale et syntaxico-sémantique dans la segmentation thématique non supervisée

Alexandre Labadié  ( LIRMM)

Violaine Prince  ( LIRMM)

Résumé : Cet article présente une méthode basée sur des calculs de distance et une analyse sémantique et syntaxique pour la segmentation thématique de texte. Pour évaluer cette méthode nous la comparons à un un algorithme lexical très connu : c99. Nous testons les deux méthodes sur un corpus de discours politique français et comparons les résultats. Les deux conclusions qui ressorte de notre expérience sont que les approches sont complémentaires et que les protocoles d'évaluation actuels sont inadaptés.

article

papier 1313 Un modèle de langage pour le DHM : la Grammaire Sémantique Réversible

Jérôme Lehuen  ( Université du Maine)

Résumé : Cet article propose un modèle de langage dédié au dialogue homme-machine, ainsi que des algorithmes d'analyse et de génération. L'originalité de notre approche est de faire reposer l'analyse et la génération sur les mêmes connaissances sémantiques et morphosyntaxique. Elles sont structurées sous la forme d'une bibliothèque de concepts, et de formes d'usage associées à ces concepts. Les algorithmes quant à eux, sont fondés sur un double principe de correspondance entre des offres et des attentes, et de calcul heuristique de score.

article

papier 1317 Discourse Representation Theory et graphes sémantiques: formalisation sémantique en contexte industriel

Maxime Amblard  ( Orange Labs)

Johannes Heinecke  ( Orange Labs)

Estelle Maillebuau  ( Orange Labs)

Résumé : Ces travaux présentent une extension des représentations formelles pour la sémantique, de l'outil de traitement automatique des langues de Orange Labs. Nous abordons ici uniquement des questions relatives à la construction des représentations sémantiques, dans le cadre de l'analyse linguistique. Afin d'obtenir des représentations plus fines de la structure argumentale des énoncés, nous incluons des concepts issus de la DRT dans le système de représentation basé sur les graphes sémantiques afin de rendre compte de la notion de portée.

article

papier 1318 Sylva : plate-forme de validation multi-niveaux de lexiques

Karen Fort  ( LORIA / INRIA Nancy Grand-Est)

Bruno Guillaume  ( LORIA / INRIA Nancy Grand-Est)

Résumé : La production de lexiques est une activité indispensable mais complexe, qui nécessite, quelle que soit la méthode de création utilisée (acquisition automatique ou manuelle), une validation humaine. Nous proposons dans ce but une plate-forme Web librement disponible, appelée Sylva (Systematic lexicon validator). Cette plate-forme a pour caractéristiques principales de permettre une validation multi-niveaux (par des validateurs, puis un expert) et une traçabilité de la ressource. La tâche de l'expert(e) linguiste en est allégée puisqu'il ne lui reste à considérer que les données sur lesquelles il n'y a pas d'accord inter-validateurs.

article

papier 1322 E-Gen: Profilage automatique de candidatures

Rémy Kessler  (Laboratoire Informatique d'Avignon)

Juan-Manuel Torres-Moreno  ( Laboratoire Informatique d'Avignon)

Marc El-Bèze  ( Laboratoire Informatique d'Avignon)

Résumé : La croissance exponentielle de l'Internet a permis le développement de sites d'offres d'emploi en ligne. Le système E-Gen (Traitement automatique d'offres d'emploi) a pour but de permettre l'analyse et la catégorisation d'offres d'emploi ainsi qu'une analyse et classification des réponses des candidats (Lettre de motivation et CV). Nous présentons ici les travaux réalisés afin de résoudre la seconde partie : dans un premier temps, nous utilisons une représentation de texte après différents processus de filtrage et de lemmatisation pour effectuer une classification des pièces jointes contenus dans le mail à l'aide de machines à support vectoriel. Par la suite, une évaluation de la candidature est effectuée à l'aide de différents classifieurs.

article

papier 1324 Typage, produit cartésien et unités d'analyse pour les modèles à états finis

François Barthélemy  ( CNAM)

Résumé : Dans cet article, nous présentons un nouveau langage permettant d'écrire des relations rationnelles compilées en automates finis. Les deux caractéristiques innovantes de ce langage sont de pourvoir décrire des relations à plusieurs niveaux, pas nécessairement deux et d'utiliser diverses unités d'analyse pour exprimer les liens entre niveaux. Cela permet d'aligner de façon fine des représentations multiples.

article

papier 1326 Vers l'évaluation de systèmes de dialogue homme-machine : de l'oral au multimodal

Frédéric Landragin  ( CNRS)

Résumé : L'évaluation pour le dialogue homme-machine ne se caractérise pas par l'efficacité, l'objectivité et le consensus que l'on observe dans d'autres domaines du traitement automatique des langues. Les systèmes de dialogue oraux et multimodaux restent cantonnés dans des domaines applicatifs restreints, ce qui rend difficiles les évaluations comparatives ou normées. De plus, les avancées technologiques constantes rendent vite obsolètes les paradigmes d'évaluation et ont pour conséquence une multiplication de ceux-ci. Des solutions restent ainsi à trouver pour améliorer les méthodes existantes et permettre des diagnostics plus automatisés des systèmes. Cet article se veut un ensemble de réflexions autour de l'évaluation de la multimodalité dans les systèmes à forte composante linguistique. Des extensions des paradigmes existants sont proposées, en particulier DQR/DCR, sachant que certains sont mieux adaptés que d'autres au dialogue multimodal. Des conclusions et perspectives sont tirées sur l'avenir de l'évaluation pour le dialogue homme-machine.

article

papier 1327 POLYMOTS : une base de données de constructions dérivationnelles en français à partir de radicaux phonologiques

Nuria Gala  ( LIF - CNRS, Aix -Marseille Universités)

Véronique Rey  ( SHADYC - CNRS, Aix - Marseille Universités)

Résumé : Cet article présente POLYMOTS, une base de données lexicale contenant huit mille mots communs en français. L'originalité de l'approche proposée tient à l'analyse des mots. En effet, à la différence d'autres bases lexicales représentant la morphologie dérivationnelle des mots à partir d'affixes, ici l'idée a été d'isoler un radical commun à un ensemble de mots d'une même famille. Nous avons donc analysé les formes des mots et, par comparaison phonologique (forme phonique comparable) et morphologique (continuité de sens), nous avons regroupé les mots par familles, selon le type de radical phonologique. L'article présente les fonctionnalités de la base et inclut une discussion sur les applications et les perspectives d'une telle ressource.

article

papier 1328 Mesure de l'alternance entre préfixes pour la génération en traduction automatique

Bruno Cartoni  ( Université de Genève)

Résumé : La génération de néologismes construits pose des problèmes dans un système de traduction automatique, notamment au moment de la sélection du préfixe dans les formations préfixées, quand certains préfixes paraissent pouvoir alterner. Nous proposons une étude > extensive >, qui vise à rechercher dans de large ressource textuelle (l'Internet) des formes préfixées générées automatiquement, dans le but d'individualiser les paramètres qui favorisent l'un des préfixes ou qui, au contraire, permettent cette alternance. La volatilité de cette ressource textuelle nécessite certaines précautions dans la méthodologie de décompte des données extraites.

article

papier 1329 Cascades de transducteurs pour le chunking de la parole conversationnelle : l'utilisation de la plateforme CasSys dans le projet EPAC

Abdenour Mokrane  ( Université François Rabelais Tours)

Nathalie Friburger  ( Université François Rabelais Tours)

Jean-Yves Antoine  ( Université François Rabelais Tours)

Résumé : Cet article présente l'utilisation de la plate-forme CasSys pour la segmentation de la parole conversationnelle (chunking) à l'aide de cascades de transducteurs Unitex. Le système que nous présentons est utilisé dans le cadre du projet ANR EPAC. Ce projet a pour objectif l'indexation et l'annotation automatique de grands flux de parole issus d'émissions télévisées ou radiophoniques. Cet article présente tout d'abord l'adaptation à ce type de données d'un système antérieur de chunking (Romus) qui avait été développé pour le dialogue oral homme-machine. Il décrit ensuite les principaux problèmes qui se posent à l'analyse : traitement des disfluences de l'oral spontané, mais également gestion des erreurs dues aux étapes antérieures de reconnaissance de la parole et d'étiquetage morphosyntaxique.

article

papier 1330 Regroupement automatique de documents en classes événementielles

Bossard Aurélien  ( LIPN - Université Paris 13)

Thierry Poibeau  ( LIPN - Université Paris 13)

Résumé : Cet article porte sur le regroupement automatique de documents sur une base événementielle. Après avoir précisé la notion d'événement, nous nous intéressons à la représentation des documents d'un corpus de dépêches, puis à une approche d'apprentissage pour réaliser les regroupements de manière non supervisée fondée sur k-means. Enfin, nous évaluons le système de regroupement de documents sur un corpus de taille réduite et nous discutons de l'évaluation quantitative de ce type de tâche.

article

papier 1338 Comparing Constituency and Dependency Representations for SMT Phrase-Extraction

Mary Hearne  ( National Centre for Language Technology, Dublin City University)

Sylwia Ozdowska  ( National Centre for Language Technology, Dublin City University)

John Tinsley  ( National Centre for Language Technology, Dublin City University)

Résumé : Nous évaluons le recours à des techniques de traduction à base de segments syntaxiquement motivés, seules ou en combinaison avec des techniques à base de segments non motivés, et nous comparons les apports respectifs de l'analyse en constituants et de l'analyse en dépendances dans ce cadre. A partir d'un corpus parallèle Anglais--Français, nous construisons automatiquement deux corpus d'entrainement arborés, en constituants et en dépendances, alignés au niveau sous-phrastique et en extrayons des correspondances bilingues entre mots et syntagmes motivées syntaxiquement. Nous mesurons automatiquement la qualité de la traduction obtenue par un système à base de segments. Les résultats montrent que la combinaison des correspondances bilingues non motivées et motivées sur le plan syntaxique améliore la qualité de la traduction quel que soit le type d'analyse considéré. Par ailleurs, le gain en qualité est plus important avec le recours à l'analyse en dépendances au regard des constituants.

article

papier 1342 Repérage de citations, classification des styles de discours et identification des constituants citationnels en écrits journalistiques

Fabien Poulard  ( LINA / Université de Nantes)

Thierry Waszak  ( LIA / Université d'Avignon)

Nicolas Hernandez  ( LINA / Université de Nantes)

Patrice Bellot  ( LIA / Université d'Avignon)

Résumé : Ce travail s'inscrit dans le cadre du projet ANR PIITHIE (Plagiats et Impacts de l'Information Textuelle recHerchée dans un contexte InterlinguE). Dans ce contexte, le repérage de citations et de ses constituants est primordial puisqu'il peut amener à évaluer le caractère licite ou illicite d'une reprise (source citée ou non). Nous proposons ici une comparaison de méthodes automatiques pour le repérage de ces informations et rapportons une évaluation quantitative de celles-ci. Un corpus d'écrits journalistiques français a été manuellement annoté pour nous servir de base d'apprentissage et de test.

article

papier 1353 Vers l'identification et le traitement des actes de dialogue composites

Frédéric Landragin  ( CNRS)

Résumé : Il peut être difficile d'attribuer une seule valeur illocutoire à un énoncé dans un dialogue. En premier lieu, un énoncé peut comporter plusieurs segments de discours ayant chacun leur valeur illocutoire spécifique. De plus, un seul segment peut s'analyser en tant qu'acte de langage composite, regroupant par exemple la formulation d'une question et l'émission simultanée d'une information. Enfin, la structure du dialogue en termes d'échanges et de séquences peut être déterminante dans l'identification de l'acte, et peut également apporter une valeur illocutoire supplémentaire, comme celle de clore la séquence en cours. Dans le but de déterminer la réaction face à un tel acte de dialogue composite, nous présentons une approche théorique pour l'analyse des actes de dialogue en fonction du contexte de tâche et des connaissances des interlocuteurs. Nous illustrons sur un exemple nos choix de segmentation et d'identification des actes composites, et nous présentons les grandes lignes d'une stratégie pour déterminer la réaction qui semble être la plus pertinente.

article

papier 1355 Représentation évènementielle des déplacements dans des dépêches épidémiologiques

Manal El-Zant  ( LIF, Université de la méditerranée)

Jean Royauté  ( LIF, Université de la méditerranée)

Michel Roux  ( LIF, Université de la méditerranée)

Résumé : La représentation évènementielle des déplacements de personnes dans des dépêches épidémiologiques est d'une grande importance pour une compréhension détaillée du sens de ces dépêches. La dissémination des composants d'une telle représentation dans les dépêches rend difficile l'accès à leurs contenus. Ce papier décrit un système d'extraction d'information utilisant les cascades de transducteurs à nombre d'états fini qui ont permis la réalisation de trois tâches : la reconnaissance des entités nommées, l'annotation et la représentation des composants ainsi que la représentation des structures évènementielles. Nous avons obtenu une moyenne de rappel de 80, 93% pour la reconnaissance des entités nommées et de 97, 88% pour la représentation des composants. Ensuite, nous avons effectué un travail de normalisation de cette représentation par une résolution des anaphores pronominales. Nous avons obtenu une valeur moyenne de précision de 81, 72% pour cette résolution.

article

papier 1359 Traduction multilingue : le projet MulTra

Luka Nerima  ( LATL-Université de Genève)

Eric Wehrli  ( LATL-Université de Genève)

Résumé : L'augmentation rapide des échanges et des communications pluriculturels, en particulier sur internet, intensifie les besoins d'outils multilingues y compris de traduction. Cet article décrit un projet en cours au LATL pour le développement d'un système de traduction multilingue basé sur un modèle linguistique abstrait et largement générique, ainsi que sur un modèle logiciel basé sur la notion d'objet. Les langues envisagées dans la première phase de ce projet sont l'allemand, le français, l'italien, l'espagnol et l'anglais.

article

papier 1363 Appariement d'entités nommées coréférentes : combinaisons de mesures de similarité par apprentissage supervisé

Erwan Moreau  ( Institut Télécom ParisTech)

François Yvon  ( Université Paris Sud - LIMSI CNRS)

Olivier Cappé  ( Institut Télécom ParisTech - LTCI CNRS)

Résumé : L'appariement d'entités nommées consiste à regrouper les différentes formes sous lesquelles apparaît une entité. Pour cela, des mesures de similarité textuelle sont généralement utilisées. Nous proposons de combiner plusieurs mesures afin d'améliorer les performances de la tâche d'appariement. À l'aide d'expériences menées sur deux corpora, nous montrons la pertinence de l'apprentissage supervisé dans ce but, particulièrement avec l'algorithme C4.5.

article

papier 1370 Un sens logique pour les graphes sémantiques

Renaud Marlet  ( INRIA)

Résumé : Nous posons la problématique du sens d'un graphe sémantique, notamment ceux utilisés en Théorie Sens-Texte. Nous donnons un sens précis à de tels graphes, sens éventuellement sous-spécifié, en explicitant une traduction simple vers une formule de Minimal Recursion Semantics. Cette traduction couvre notamment les cas de prédications multiples sur plusieurs entités, de prédication d'ordre supérieur et de modalités.

article

papier 1372 Annotation en Frames Sémantiques du corpus de dialogue MEDIA

Marie-Jean Meurs  ( LIA - Université d'Avignon)

Frédéric Duvert  ( LIA - Université d'Avignon)

Frédéric Béchet  ( LIA - Université d'Avignon)

Fabrice Lefèvre  ( LIA - Université d'Avignon)

Renato De-Mori  ( LIA - Université d'Avignon)

Résumé : Cet article propose un formalisme de représentation des connaissances utilisé pour annoter le corpus de dialogue en français MEDIA en terme de structures sémantiques. L'annotation est incrémentale et partiellement automatique. Nous décrivons un processus d'interprétation automatique dont les procédures permettent d'obtenir des compositions sémantiques et de générer des hypothèses de Frames par inférence. Le corpus français MEDIA est un corpus de dialogue manuellement annoté au niveau mots et au niveau constituants sémantiques. Le processus appliqué au corpus MEDIA produit une annotation de plus haut niveau en Frames sémantiques. La base de connaissance réalisée et les résultats de l'annotation automatique sont présentés.

article

papier 1380 Dissymétrie entre l'indexation et la recherche d'information en langue arabe

Ramzi Abbes  ( Université de Lyon 2 / ICAR-CNRS)

Malek Boualem  ( France Télécom R&D)

Résumé : Les moteurs de recherches sur le web produisent des résultats comparables et assez satisfaisants pour la recherche des documents écrits en caractères latins. Cependant, ils présentent de sérieuses lacunes dès que l'ont s'intéresse à des langues peu dotées ou des langues sémitiques, comme l'arabe. Dans cet article nous présentons une étude qualitative au sujet de la recherche d'information en langue arabe et dans laquelle nous mettons l'accent sur l'insuffisance des outils de recherche actuels, souvent mal adaptés aux spécificités de la langue arabe. Pour argumenter notre analyse, nous présentons des résultats issus d'observations et de tests autour de certains phénomènes linguistiques de l'arabe écrit. Pour la validation des ces observations, nous avons testé essentiellement le moteur de recherche Google.

article