MeLos: Analyse et Modélisation de la Prosodie et du Style de Parole

Auteur : Nicolas Obin, Ircam-UPMC, 2011

Résumé :
Cette thèse a pour objet la modélisation de la prosodie dans le cadre de la synthèse de la parole. Nous présenterons MeLos : un système complet d’analyse et de modélisation de la prosodie, “la musique de la parole”.

L’objectif de cette thèse est de modéliser la stratégie, les alternatives, et le style de parole d’un locuteur dans le cadre de la synthèse de parole expressive. Nous présenterons un système unifié fondé sur des modèles de Markov cachés (HMMs) à observation discrète/continue pour modéliser les caractéristiques symbolique et acoustique de la prosodie :

1) Une chaîne de traitement linguistique de surface et profonde sera introduite pour enrichir la description des caractéristiques du texte.

2) Un modèle segmental associé à la fusion de Dempster-Shafer sera utilisé pour combiner les contraintes linguistique et métrique dans la production des pauses.

3) Un modèle de trajectoire basé sur la stylisation des contours prosodiques sera présenté pour permettre de modéliser simultanément les variations à court et long terme de la F0.

Le système proposé est utilisé pour modéliser les stratégies et le style d’un locuteur, et est étendu à la modélisation du style de parole par des méthodes de modélisation en contexte partagé et de normalisation du locuteur.

Mots-clefs: prosodie, style de parole, synthèse de la parole, modèle de Markov caché (HMM) à observation discrète/continue, stylisation, modèle de trajectoire, analyse linguistique.