L’expression et la perception de l’émotion extraite de la parole spontanée : évidences du coréen et de l’anglais.

Résumé:

La thèse vise à investir comment l’émotion modifie la production vocale du locuteur et comment l’auditeur reconnaît l’émotion sur base des indices acoustiques. L’émotion est souvent présente dans la parole naturelle, tandis qu’elle n’est guère prise en compte à l’heure actuelle dans la synthèse et la reconnaissance automatique de la parole. D’où l’impression mécanique de la parole synthétique et l’instabilité de la reconnaissance automatique de la parole et du locuteur lors que le sujet parle sous le coup de l’émotion.

Trois questions majeures ont été adressées dans cette étude. (1) Quels sont les meilleurs indices acoustiques correspondant l’excitation émotionnelle de la joie et de celle de la tristesse (détresse en larmes)? (2) la culture de l’auditeur influence-t-elle la perception de l’émotion? (3) Est-ce que les indices acoustiques de l’émotion sont uniformément répartis au niveau de l’énoncé, ou bien s’expriment-ils dans une zone privilégiée de l’énoncé?

Les corpus ont été construits à partir de six entretiens télévisés, d’une locutrice Coréenne et de cinq locutrices Américaines. Les entretiens sélectionnés se sont déroulés de façon identique, à savoir que la locutrice a commencé son discours d’une voix enjouée en racontant des moments agréables vécus au sein de sa famille (considéré dans cette étude comme la partie « joie »), puis sa parole s’est assombrie lorsqu’elle a commencé à parler de ses conflits familiaux (considéré dans cette étude comme la partie « tristesse ») et elle a fini par pleurer de détresse. Les mesures acoustiques qui ont été faites sur les phrases sélectionnées de ces corpus sont les suivantes : le Fo moyen, les Fo maximum et Fo minimum, la plage de Fo, la moyenne des 20% valeurs les plus basses de Fo (‘Fo Moy Bas’), les perturbations de Fo (jitter), et d’intensité (shimmer), le débit et la distribution spectrale. Les résultats sont les suivants. Premièrement, en ce qui concerne les corrélats acoustiques des émotions, la « joie » crée une augmentation du Fo moyen, tandis que la tristesse et les larmes renforcent la diminution du Fo minimum et du ‘Fo Moy Bas’. L’augmentation du Fo maximum et de la plage de Fo est un bon indice de l’excitation émotionnelle générale (soit la joie, soit la tristesse), alors que les variations du jitter, du shimmer et du débit sont peu significatives entre joie et tristesse dans nos données coréennes et anglaises. Le bouleversement émotionnel de la tristesse souvent s’accompagne de vibrations glottales irrégulières et ralenties dans la partie finale de l’énoncé, et l’émotion positive de la locutrice vis-à-vis l’interlocuteur est souvent exprimée par un contour de Fo montant-descendant sur une longue syllabe finale de l’énoncé.

Deuxièmement, l’influence de la culture de l’auditeur sur la perception de l’émotion est examinée par un test de perception avec trois groupes d’auditeurs, Coréens, Américains et Français. D’après le test, ils ont tous identifié la joie et la tristesse de la locutrice Coréenne avec une précision supérieure à celle qui aurait été due au hasard. Cependant, les Coréens étaient significativement plus précis que les Français et les Américains dans l’identification des émotions coréennes. Troisièmement, un autre test de perception a permis de mettre à jour le fait que l’émotion est mieux exprimée et mieux perçue dans la partie finale de l’énoncé que dans les autres parties, initiale et médiane. L’efficacité de la partie finale de l’énoncé dans la communication émotionnelle constituent un nouvel aspect de cette étude.

En conclusion, les meilleurs indices acoustiques varient selon le type d’émotion. La perception de la joie et de la tristesse est universelle dans le sens général mais la connaissance culturelle de l’auditeur influence aussi la perception de l’émotion de façon subtile. La partie finale de l’énoncé est le meilleur endroit dans l’énoncé pour exprimer et reconnaître l’émotion. L’application pratique de cette étude dans la techonologie vocale contribuera au développement du système de synthèse et de reconnaissance vocales et ultérieurement à la recherche de l’intelligence artificielle comme l’apprentissage assisté par ordinateur et l’amusement de la réalité virtuelle.