Résumé:
Mon travail de thèse s’insère dans un des principaux projets à long terme de l’Institut de la Communication Parlée : le développement d’un robot parlant fondé sur une modélisation anthropomorphique des processus mis en jeu dans la production de la parole chez l’homme. L’enjeu d’un tel projet est la réalisation d’une synthèse articulatoire capable de générer, à l’aide de principes généraux de contrôle moteur, des voix moins uniformisées et plus proches des caractéristiques variables des voix humaines (phénomènes de coarticulation). Pour produire de la parole, l’être humain met en mouvement ses organes phonatoires (poumons et cordes vocales) et les articulateurs qui modèlent la forme de son conduit vocal (mandibule, langue, lèvres et vélum). La génération d’un signal acoustique de parole perceptible nécessite donc une coordination complexe et précise de différents organes, dans l’espace et dans le temps, et implique le recrutement de plusieurs dizaines de muscles. L’enjeu de mon travail de recherche est de contribuer à la compréhension des relations entre les commandes de type phonologique, porteuses de l’information sémantique propre à la parole, et les commandes musculaires à la base de l’encodage physique du message pour sa transmission vers l’auditeur. Pour cela deux grandes étapes ont été définies : (1) l’élaboration d’un modèle biomécanique de la langue, l’articulateur le plus important dans la détermination de la forme du conduit vocal, contenant un niveau suffisant de réalité dans la description géométrique, anatomique et physiologique ; (2) la recherche d’une théorie pour le contrôle de la langue en parole apte à faire le lien entre les niveaux physique et phonologique.
Grâce à sa structure interne, la langue modèle le conduit vocal de façon très précise et avec une dextérité impressionnante. Composée de près d’une vingtaine de muscles, elle a l’apparence d’une masse incompressible qui se déforme. L’outil mathématique qui nous a semblé le plus apte à décrire cette structure est la Méthode des Eléments Finis : on peut ainsi définir au sein d’une structure élastique continue et incompressible, des éléments de petites dimensions déformés sous l’action des fibres des différents muscles intrinsèques et extrinsèques. Une mise en équation dynamique des différents noeuds définissant les éléments constitutifs du modèle permet une simulation réaliste des mouvements de la langue.
Une fois un tel modèle défini, se pose le problème du contrôle de ce système pour la parole, c’est-à-dire en relation avec le code linguistique. La recherche de régularités physiques associées à une même unité de commande linguistique s’est révélée délicate au niveau des données articulatoires et acoustiques. La rechercher au niveau des commandes musculaires individuellement semble tout autant voué à l’échec : il semble en effet difficilement concevable que nous contrôlions indépendamment chacun des vingt muscles linguaux pour produire une séquence phonologique donnée. C’est pourquoi nous optons pour un principe de contrôle qui serait capable de rendre compte des synergies musculaires gérées par le Système Nerveux Central (SNC). Nous nous sommes appuyés sur une théorie bien connue dans le champ des travaux sur le contrôle moteur : l’hypothèse du point d’équilibre proposée par Feldman, de l’Université de Montréal.
L’idée de base de cette théorie est que, lors d’un mouvement, le SNC contrôle le déplacement du point d’équilibre du système. Tout mouvement est alors défini comme le déplacement d’une position cible-équilibre vers une autre, chacune de ces positions étant spécifiée au niveau central, tandis que la dynamique de la transition est liée au niveau de force mis en jeu (niveau de cocontraction , ou raideur globale) et à la dynamique propre des articulateurs. L’hypothèse que nous proposons pour exploiter cette théorie dans le champ de la parole, consiste à associer la notion de cible-équilibre avec celle d’unité phonologique élémentaire (le phonème), et la notion de commande prosodique avec la paramétrisation dynamique du mouvement. La programmation des mouvements de la langue dans une séquence de parole serait alors réalisée (1) par la spécification des cibles-équilibre successives associées aux phonèmes, et (2) par un contrôle des propriétés dynamiques de la transition via un paramètre global de cocontraction. La variabilité observée selon les conditions d’élocution pour une même transition entre phonèmes peut alors être simulée en agissant sur le paramètre de raideur (mouvement plus ou moins tonique) et sur les instanciations des mouvements successifs (débit d’élocution plus ou moins rapide). Evidemment une telle variabilité est par essence fonction de la dynamique des articulateurs. On comprend ainsi tout l’intérêt qu’il y a à préalablement élaborer un modèle qui soit réaliste sur le plan physiologique, anatomique et biomécanique.
L’objectif final de ma thèse est la synthèse de transitions voyelle-voyelle à débit variable, et pour des styles d’élocution différents à l’aide du modèle biomécanique de la langue contrôlé selon le modèle décrit ci-dessus et couplé à un modèle de la mandibule déjà élaboré au laboratoire.
Mots clés : communication parlée, production de la parole, contrôle moteur, modélisation biomécanique.