Au delà des mots: utilisation des modèles de langage pour une synthèse vocale incrementale et adaptable au contexte linguistique

Cette thèse vise à améliorer les systèmes de synthèse vocale à partir du texte en ciblant deux axes, la réactivité et la qualité. En effet, les systèmes actuels présentent un délai important car l’utilisateur doit entrer une phrase complète avant que cette dernière ne puisse être synthétisée. Lorsque utilisés comme voix de substitution par une personne présentant un trouble de la communication, ces systèmes ne permettent donc pas une interaction fluide. De plus, les systèmes actuels exploitent exclusivement le texte de la phrase à synthétiser en ignorant le contexte linguistique général associé (par exemple les phrases précédentes). Dans cette thèse, nous proposons d’utiliser les modèles de langage basés sur des architectures de type Transformer pour (1) prédire le texte futur, à partir du texte déjà saisi, et ainsi débuter la synthèse d’un mot juste après sa saisie – on parlera de synthèse incrémentale, et (2) encoder le contexte linguistique général associé à la phrase à synthétiser pour améliorer la qualité prosodique de la synthèse – on parlera de synthèse adaptée au contexte. Dans une première étude, nous étudions l’évolution des représentations internes d’un système TTS neuronal lorsque ce dernier synthétise un mot avec une connaissance seulement partielle des k mots à venir (le lookahead). Une analyse statistique (de type forêts aléatoires) est utilisée pour déterminer quels sont les descripteurs linguistiques qui influent sur la stabilité de ces représentations internes. Enfin, nous complétons ces mesures objectives par un ensemble de tests perceptifs visant à quantifier la qualité prosodique en fonction du contexte linguistique considéré. Ces évaluations montrent que les systèmes TTS actuels exploitent un horizon d’environ 2 mots et que la stabilité des représentations internes associées à un mot dépend fortement de sa longueur. Notre seconde contribution porte sur l’intégration, à un système TTS neuronal, d’un modèle de langage autoregressif, basé sur une architecture de type Transformer (tel que GPT) afin de prédire, au fur et à mesure de la saisie du texte, les mots suivants les plus probables. Les évaluations objectives et perceptives menées montrent que cette approche permet un bon compromis entre réactivité et naturel de la synthèse, mais reste très dépendante de la qualité de la prédiction du texte. Notre troisième contribution porte sur l’amélioration générale de la prosodie d’un système TTS et plus spécifiquement sur la prédiction de la focalisation contrastive d’une part, et d’autre part sur la segmentation d’un texte en cours de saisie en groupe de souffle. Il s’agit de tâches particulièrement difficiles car elles nécessitent l’extraction d’informations au niveau sémantique. Nous proposons d’utiliser les modèle de language pour capturer ces informations en exploitant un contexte linguistique plus large que la phrase à synthétiser. Plus spécifiquement, nous adaptons un modèle de type BERT pour qu’il prédise directement des caractéristiques acoustiques associées à la focalisation contrastive. Pour évaluer cette approche, nous avons constitué un corpus spécifique présentant de nombreuses occurrences de focus contrastifs sur des pronoms personnels. Enfin, nous proposons d’utiliser les modèles autoregressifs (GPT) pour décomposer de façon incrémentale un texte en cours de saisie, ce qui permet de réaliser un compromis entre le naturel et la réactivité de la synthèse vocale.