Modélisation des mouvements articulatoires de la langue par la méthode de la LPC multi-impulsionnelle.

Résumé:

La description physique d’un son, qu’elle soit acoustique en terme de spectrogramme ou articulatoire dans une séquence cinéradiographique, dépend de plusieurs facteurs : le contexte phonétique, la vitesse d’élocution, l’accent syllabique… Ce sont autant de facteurs qui affectent le patron des sons. L’objectif principal de cette thèse est de tenter d’éclairer certains aspects du contrôle moteur lors de la production de la parole en utilisant des techniques de traitement du signal. Plus précisément, le problème que nous nous sommes posé est le suivant : disposant d’enregistrements de films radiologiques de la coupe sagittale de la langue lors de la production de la parole, est-il possible grâce à l’analyse des variations trame par trame des séquences cinéradiographiques de détecter des régularités qui existent dans la parole et de les caractériser ? A priori le problème est double. En premier lieu, il faut modéliser les variations temporelles ou « mouvements » de la langue. Ensuite, il faut analyser les paramètres de contrôle du modèle, en l’occurrence le signal d’excitation du filtre, en vue de comprendre l’organisation spatio-temporelle des commandes des différentes composantes articulatoires de la langue.

La première partie est consacrée aux mécanismes de contrôle des mouvements musculaires. L’étude comparative des mécanismes les plus répandus chez l’homme, nous a conduit à retenir le modèle de type source-filtre pour l’analyse des mouvements des différents paramètres articulatoires. Deux filtres invariants placés en cascade constituent le modèle de chaque paramètre articulatoire. Le premier est un filtre intégrateur. Il est associé au système mécanique de la chaîne de production de la parole. Le deuxième est d’ordre 2. Il correspond au système physiologique. La source, quant à elle, est représentée par une séquence d’impulsions. L’énergie de l’erreur entre le mouvement synthétisé et celui de référence est inférieure à 30% lorsque le nombre d’impulsions est proche du nombre de syllabes dans la phrase. Ce résultat s’explique par le fait que la durée effective de la réponse impulsionnelle du modèle est comparable à celle de la durée moyenne de la syllabe française, 180 ms.

La deuxième partie s’ouvre sur la détermination du nombre minimum d’impulsions de commande m* nécessaire pour la synthèse des patrons des fréquences de formants des sons produits avec une précision raisonnable au sens perceptif. Ce nombre est inférieur ou égal au nombre de syllabes dans la phrase. Nos résultats suggèrent que l’organisation spatio-temporelle de la commande des articulateurs de la langue entraîne la production d’un mouvement élémentaire dont la durée est comparable à celle de la syllabe française. De plus, le nombre effectif des impulsions d’un articulateur semble être étroitement lié à celui des traits phonétiques qui lui sont inhérents.