Prosodie de la parole expressive : dimensionnalité d’énoncés méthodologiquement contrôlés authentiques et actés

Résumé :
De plus en plus, les sciences humaines (en linguistique, pragmatique, phonétique, psychologie, etc.) envisagent les affects de l’humain comme un processus inséparable des traitements linguistiques dans l’accomplissement de ses activités communicationnelles. A travers la phonostylistique par exemple, ces phénomènes affectifs ont toujours été étudiés. Dans de nouvelles propositions théoriques, en particulier héritées des théories cognitives des émotions qui redéfinissent globalement l’entité psychologique de l’humain, les affects interviennent de manière décisionnelle sur les choix des actes de parole. S’inscrire dans l’étude de telles hypothèses suppose l’observation des faits de parole en situation de communication dans tout le naturel et la liberté de leur affectivité. Comme il est classique en phonétique expérimentale, se pose méthodologiquement le problème d’une instrumentation précise de mesure et d’analyse. Les progrès récents de la technologie de synthèse vocale grâce a
u « clonage » des voix (méthode de synthèse par corpus ou par rushes), ont déplacé l’objectif préalable d’intelligibilité, d’agrément et de naturalité toute relative vers un objectif beaucoup plus écologique et humanisé de l’interaction personne-machine dans le quotidien de l’usage des outils informatiques.

L’objectif de cette thèse est de valider des hypothèses théoriques relatives à la morphologie vocale des expressions des affects dans la parole et plus particulièrement des expressions émotionnelles, dans une optique de modélisation de la connaissance et d’applications en synthèse de la parole expressive et de reconnaissance automatique des affects. De nombreuses études portant sur les expressions prosodiques des affects cherchent à les décrire par des valeurs globales à l’énoncé calculées sur un grand nombre de paramètres acoustiques souvent redondants, qui peuvent permettre d’identifier les affects exprimés mais s’avèrent insuffisant pour synthétiser ces expressions. Pour notre part nous défendons l’hypothèse d’une morphologie en contours gradients dans laquelle l’information affective est portée par la forme des contours multiparamétriques, paramétrés par des valeurs d’ancrage variables en fonction du type d’affect exprimé et des stratégies expressives du locuteur.
Une plateforme dédiée à la conception et à la mise en place de scénarios de Magicien d’Oz pour la collecte de corpus de parole expressive authentique, E-Wiz, a été développée. Un scénario d’apprentissage des langues simulant une interaction homme-machine basée sur la reconnaissance vocale a été développé à l’aide de cette plateforme, des états émotionnels positifs puis négatifs étant induits chez les sujets en manipulant leurs performances. 17 locuteurs ont été ainsi piégés, dont 7 acteurs auxquels il a été demandé immédiatement après l’expérience de rejouer les mêmes expressions sur les mêmes énoncés. Cette méthodologie a permis le recueil synchrone de signaux acoustiques, visuels, articulatoires et physiologiques de parole expressive spontanée et actée, dans lesquels les énoncés produits sont contrôlés et comportent une large part de mots monosyllabiques dont les voyelles sont distribuées dans l’espace acoustique, permettant d’étudier la prosodie des affects exprimés indépe
ndamment des effets de la prosodie linguistique et d’évaluer de façon contrôlée les variations de paramètres acoustiques variés en fonction des variations émotionnelles. Les affects exprimés ont été étiquetés par les locuteurs eux-mêmes afin de tirer parti de leur mémoire autobiographique. Un sous-ensemble sélectionné des productions du locuteur jugé comme le plus expressif a ensuite été évalué perceptivement, montrant notamment un effet inter-juge pour les expressions de dégoût.
Les études menées sur le corpus ainsi recueilli comprennent une analyse acoustique centrée sur les contours de fréquence fondamentale, qui nous a permis d’extraire différentes formes de contours pour différentes expressions émotionnelles sur des énoncés aussi courts que des mots monosyllabiques isolés. Des expériences de projection séparée par analyse/resynthèse des dimensions prosodiques (fréquence fondamentale, qualité de voix, intensité et durée) de stimuli validés perceptivement ont été conduites en collaboration avec Orange-labs. Ces expériences ont pu montrer un poids différent de ces dimensions en fonction de la valence des affects exprimés, sans qu’une dimension prosodique ne soit spécifiquement dédiée à une classe d’émotions particulière. Une expérience de dévoilement progressif d’énoncés monosyllabiques a suggéré un décodage de l’information affective fondé sur la dynamique des contours et non uniquement sur des valeurs globales, la gradience permettant toutefois un
e détermination plus précoce de la valeur affective dans le cas des expressions positives plus intenses.
L’évaluation d’un algorithme d’extraction automatique du paramètre de qualité de voix NAQ et la confrontation des résultats obtenus avec le signal électroglottographique recueilli pour deux des locuteurs enregistrés a permis de montrer un effet intrinsèque de la voyelle sur les valeurs de NAQ mesurées, ne permettant pas de retenir cette mesure dans l’optique d’une approche en suivi de contours de qualité de voix.

L’étude perceptive de la catégorisation cognitive d’expressions vocales spontanées et actées d’émotions des produites par 6 locuteurs, à travers le recueil de jugements perceptifs de typicalité, de fréquence d’instanciation et de similarité aux idéaux, indique que les expressions vocales des émotions seraient plutôt représentées comme des catégories liées au but au sens de Barsalou que comme des catégories taxonomiques classiques. Ce résultat est en accord avec celui de l’étude d’Horstmann sur les expressions faciales prototypiques, avec toutefois une tendance moindre pour les expressions spontanées. De plus, l’intensité des émotions exprimées spontanément a été jugée moins importante que celle des expressions simulées.
Enfin, une tâche de discrimination perceptive audiovisuelle menée sur 24 paires d’expressions spontanées vs. actées de satisfaction, d’inquiétude et d’irritation produites par 4 acteurs a enfin montré que des auditeurs naïfs étaient capables de distinguer les énoncés actés vs. spontanés avec une importante variabilité inter-individuelle, sans que l’intensité perçue de l’émotion ne puisse expliquer entièrement les scores de discrimination. Ce résultat souligne l’importance de l’utilisation de corpus spontané pour la modélisation d’expressions vocales d’émotions, tant pour des objectifs de recherche que dans le cadre d’applications technologiques.