Session JEP orale - O5
Corpus
Jeudi 12 Juin - 16h30 17h30
-
papier 1606
Amélioration de la conversion de voix chuchotée enregistrée par capteur NAM vers la voix audible
- Viet-Anh Tran ( GIPSA-Lab)
- Gérard Bailly ( GIPSA-Lab)
- Hélène Loevenbruck ( GIPSA-Lab)
- Christian Jutten ( GIPSA-Lab)
- Résumé : The NAM-to-speech conversion proposed by Toda and colleagues which converts Non-Audible Murmur (NAM) to audible speech by statistical mapping trained using aligned corpora is a very promising technique, but its performance is still insufficient. In this paper, we present our current work to improve the intelligibility and the naturalness of the synthesized speech converted from whispered speech with this technique. The first system is proposed to improve F0 estimation and voicing decision. A simple neural network is used to detect voiced segments in the whisper while a GMM estimates a continuous melodic contour based on training voiced segments. In the second system, we attempt to integrate visual information for improving both spectral estimation, F0 estimation and voicing decision.
- article
-
papier 1614
Corpus oraux et chunking
- Olivier Blanc ( Université Ludwig Maximilian de Munich)
- Matthieu Constant ( Université Paris-Est)
- Anne Dister ( Université Catholique de Louvain)
- Patrick Watrin ( Université Catholique de Louvain)
- Résumé : Nous présentons une procédure de segmentation en chunks de corpus oraux. Cette solution s'inscrit dans un projet visant l'étiquetage moprho-syntaxique automatique de l'oral, le chunking étant une première étape à partir de laquelle nous inférerons les étiquettes des différents mots du texte. Concrètement, nous opérons en deux temps. Nous prétraitons les données transcrites de l'oral afin de les rendre compatibles avec notre chunker. Cette première étape nous permet ensuite d'envisager le chunking de la même manière que nous le faisons pour l'écrit. Nous décrivons successivement les modules de normalisation et de chunking, puis nous complétons notre discussion en présentant une première évaluation.
- article
-
papier 1672
Représentations de séquences de parole en espaces de faible dimensionalité
- José-Anibal Arias-Aguilar ( Université Paul Sabatier)
- Régine André-Obrecht ( Université Paul Sabatier)
- Jérôme Farinas ( Université Paul Sabatier)
- Résumé : Dans cet article nous étudions des représentations de séquences de parole en faible dimensionalité. Nous utilisons une modélisation par mélange de lois gaussiennes (GMM) pour caractériser les paramètres cepstraux d'une séquence de parole. Cette modélisation est utilisée de divers manières. Dans un premier système, la divergence symétrique de Kullback-Leibler entre modèles est calculée et donnée comme point de départ à l'algorithme d'échelle multidimensionnelle, qui trouve une représentation 3D de chaque GMM. Dans une deuxième approche, les GMM sont entrainés à partir de composantes stationnaires des séquences de parole. Dans un dernier système les modèles GMM sont issus d'une adaptation d'un modèle GMM universel. Chaque GMM est caractérisé par un supervecteur issu de la concaténation des vecteurs des moyennes. Une analyse en composantes principales permet de visualiser ces vecteurs. Les propriétés des résultats obtenus sont analysées à l'aide de l'algorithme de regroupement spectral.
- article