Transformation automatique de la parole – Etude des transformations acoustiques

Résumé :
Le travail effectué dans cette thèse s’insère dans le cadre de la conversion automatique de la voix. La problématique générale est de modifier le signal d’un énoncé pour qu’il soit perçu comme prononcé par une autre personne. Les Systèmes de Conversion de Voix (SCV) de l’état de l’art utilisent pour la plupart des modèles de voix probabilistes GMM (Gaussian Mixture Models). Ces SCV utilisent des fonctions de conversion linéaires apprises à partir des GMMs. Elles permettent d’obtenir des voix converties de bonne qualité. Cependant, elles sont soumises à des défauts de conception liées à l’apprentissage de ces modèles. On peut ainsi noter le surlissage (oversmoothing) qui est une généralisation trop poussée et son opposé, le sur-apprentissage (overfitting) qui est une spécialisation trop poussée. Un aspect de cette thèse explore différentes stratégies d’apprentissage des fonctions de conversion. La première piste suivie est la réduction du nombre des paramètres libres de la fonction de conversion. La deuxième propose une alternative aux fonctions de conversion linéaires basées sur des GMMs en recourant aux modèles de transformation non-linéaire à base de réseaux de Neurones (RBF, Radial Basis Functions). Cette thèse s’intéresse d’autre part aux données utilisées pour apprendre les modèles de voix et les transformations. En effet, pour apprendre la fonction de conversion, les données issues des locuteurs source et cible doivent être mises en correspondance. Or, dans la plupart des cas d’utilisation, ces données ne sont pas parallèles. Autrement dit, les deux locuteurs n’ont pas prononcé suffisamment de phrases similaires. Notre proposition consiste à faire correspondre ces données lacunaires en les décomposant en classes acoustiques et en s’appuyant sur l’appariement, classique, des classes acoustiques cibles et sources. Enfin, notre intérêt se porte sur la paramètrisation de la voix car, pour obtenir une haute qualité de voix, il est nécessaire qu
e cette paramètrisation conserve un maximum d’information sur le locuteur. Il s’agit en l’occurrence de l’enveloppe de son signal, obtenue fidèlement par la méthode de True-Envelope. Or, les premières études ont montré que ces données doivent être réduites pour nourrir un modèle probabiliste efficace. Pour cela, nous avons recours à la technique de réduction de dimension d’analyse par composantes principales (PCA, Principal componant analysis). Cette solution s’avère plus efficace lorsqu’on différencie les fonctions de transformation selon la classe phonétique.