Analyse/synthèse des signaux de parole à partir d’un modèle de sinusoïdes et de bruit. Application au codage bas débit et aux transformations prosodiques.

Résumé:

L’efficacite du modèle « sinusoides et bruit » dans le cadre de l’analyse/synthèse des signaux de parole a déjà été démontrée. Il s’agit de représenter ces signaux comme une somme de sinusoides reliées harmoniquement et d’un signal de bruit filtre par l’enveloppe spectrale du signal original. Les paramètres de ce modèle sont donc le pitch (ou fréquence fondamentale), la fréquence maximale de voisement ainsi que les caractéristiques de l’enveloppe spectrale. L’accès immédiat à ces paramètres permet d’effectuer facilement des modifications prosodiques (hauteur, dureé et éventuellement timbre) sur le signal original. En outre cette modélisation permet de coder efficacement, à de faibles débit, le signal.

Ce travail de thèse va permettre de rassembler les connaissances de trois laboratoires situés au CNET Lannion, à l’IRCAM (Institut de Recherche et Coordination Acoustique et Musique) et enfin à l’ENST. Dans cette thèse nous avons developpé une nouvelle méthode d’estimation spectrale reposant sur un critère de maximum de vraisemblance. Celle-ci est particulierement bien adaptée à des applications de codage et de débruitage car elle tient compte du bruit ambiant qui perturbe les sinusoides modélisant la voix. Nos efforts actuels se portent sur une autre application : la synthèse haute qualité.