Génération multiparamétrique de la prosodie du français par apprentissage automatique.

Résumé:

Cette thèse a pour objet la conception, l’apprentissage automatique et l’évaluation d’un modèle de génération de la prosodie du français.

Ce modèle, d’inspiration cognitive, suppose un encodage direct des informations linguistiques et para-linguistiques véhiculées par un énoncé via des formes prosodiques prototypiques. Ces formes – ou mouvements – sont enchaînées au sein d’un même niveau linguistique (phrase, groupe, mot…) et se superposent à des enchaînements encodant les niveaux supérieurs. Cette morphologie superpositionnelle opère de manière multiparamétrique. Dans le cadre de cette thèse, nous avons étudié deux niveaux linguistiques – la phrase et le groupe – et deux dimensions prosodiques – la mélodie et le rythme. Pour ces deux niveaux, nous avons élaboré un système de génération conjoint des contours mélodiques et rythmiques, paramétré par un apprentissage automatique hiérarchique sur des corpus de parole naturelle. L’architecture du modèle est un réseau de neurones récurrent à connections partielles.

Les corpus de parole ont été conçus de façon à prendre en compte le phénomène linguistique étudié avec une représentativité statistique suffisante, et à faire varier systématiquement le contenu des niveaux linguistiques inférieurs. A partir d’un corpus de phrases isolées prononcées par un locuteur selon six consignes attitudinales, nous avons entrepris la génération des prototypes mélodiques et rythmiques du niveau de la phrase véhiculant l’attitude du locuteur vis-à-vis de son propos. Nous avons également étudié, sur la base d’un corpus de phrases déclaratives, les modulations du niveau porté de groupe prenant en charge la fonction de structuration de l’énoncé.

Chaque étape d’apprentissage de notre modèle a été sanctionnée par un test de perception destiné à évaluer sa capacité à capturer les informations nécessaires et suffisantes pour communiquer les fonctions linguistiques données comme consignes a priori dans chaque corpus.