Stratégie d’analyse pour la Compréhension de la parole : vers une approche à base de Grammaires d’Arbres Adjoints Lexicalisées.

Résumé:

L’intégration de la Reconnaissance de la Parole (RP) et du Traitement Automatique du Langage Naturel (TALN) est une problématique centrale pour la mise en place de systèmes de dialogue vocaux. En effet, la reconnaissance acoustique nécessite des informations linguistiques pour atteindre des performances acceptables, et de son côté la compréhension des énoncés reconnus doit être adaptée aux spécificités de l’oral et aux éventuelles erreurs de reconnaissances. Nous recherchons des stratégies d’analyse du langage naturel s’interfaçant au mieux avec la reconnaissance de la parole, en vue des taches suivantes : améliorer le décodage acoustico-phonétique premier, en parcourant les treillis de mots reconnus, ou en reordonnant les N-meilleures phrases hypothèses; se montrer robuste aux variations grammaticales des énoncés reconnus et fournir une analyse pertinente au module d’interprétation applicatif.

Dans une première partie nous explorons donc les modes d’interfaçage entre reconnaissance de parole et analyse du langage dans des cadres applicatifs précis (dialogue personne-machine finalisé, commande vocale en environnement virtuel, interrogation vocale de base documentaire). Nos expériences portent sur plusieurs types de grammaires (CFG, TFG/TIG, DCG), avec leurs problèmatiques et stratégies spécifiques concernant l’élaboration de la grammaire; l’analyse et l’interpétation d’énoncés; la robustesse; le rattrapage d’erreur; et l’intégration de connaissances.

Dans une seconde partie nous nous interessons plus particulièrement aux Grammaires d’Arbres Adjoints Lexicalisées (LTAG) qui possèdent des propriétés lexicales et incrementales que nous voulons mettre au profit d’une analyse syntaxique robuste.

Nous proposons une extension à la technique de « superétiquetage » (supertagging), introduisant ainsi une gradation entre étiquetage statistique superficiel et analyse probabiliste complète. Nous définissons à cette occasion un parsage (parsing) tabulaire bidirectionnel fondé sur une projection des arbres élémentaires et des arbres dérivés, appelée « type linéaire », qui exprime les attentes combinatoires des arbres. Le « superétiquetage étendu » mis en oeuvre dans ce type de table de parsage autorise des stratégies robustes de parsage partiel.

Nous déterminons d’autre part une méthode pour prendre en compte des structures de traits (syntaxiques ou autre), en les gardant décorrélées de la stratégie d’analyse syntagmatique (dite « analyse squelette »). Cette méthode a pour but une factorisation et une localisation optimale des contraintes de traits pour filtrer efficacement une analyse ou une forêt partagée d’analyses. Nous définissons ainsi un système de « congruences » de structures de traits, qui se révèle une vision alternative de la dérivation TAG. Ce système met en lumière des contraintes sur les structures de traits des noeuds extrêmes des arbres élémentaires. Il amène également à une nouvelle caractérisation de l’adjonction mutliple, et des arbres auxiliaires dits « modifieurs ».

Mots Clefs : TALN, Compréhension de la Parole, Interface entre Reconnaissance de la Parole et Analyse Linguistique, Intégration de sources de connaissance, Grammaires d’Arbres Adjoints (TAG), Parsing Syntaxico-Sémantique, Parsing Robuste, Parsing Probabiliste, Méthodes à base de corpus.