Alexandre Allauzen
LIMSI-CNRS, Université Paris-Sud
Session JEP orale O4 Reconnaissance de la parole et du locuteur Jeudi 12 Juin - 14h00 16h00
-
papier 1604
Modèles discriminants pour la prédiction d'erreur dans les réseaux de confusion
- Alexandre Allauzen ( LIMSI-CNRS, Université Paris-Sud)
- Résumé : In this article, error detection for broadcast news transcription system is addressed in a post-processing stage. To estimate the probability of errors, we introduce the use of linear-chain conditionnal random fields based on features extracted from confusion networks. The linear-chain is a discriminative alternative to hidden Markov models for sequence classification. The linear chain configuration is experimented with both real valued and binarized features showing a slight impact of binarization on classification performances. To improve our models, the linear chain is then augmented to include dependencies to adjacent feature vectors. Our best model yields to an absolute reduction of the classification error rate of 9% to be compared with the standard ASR output (from 13.9% to 4.7%) and 6% to be compared to a logistic regression model trained in same conditions.
- article
Session JEP orale O7 Synthèse et prosodie Vendredi 13 Juin - 14h00 16h00
-
papier 1621
Étude diachronique de l'accent initial au travers d'archives audio
- Philippe Boula-de-Mareüil ( LIMSI-CNRS)
- Albert Rilliard ( LIMSI-CNRS)
- Alexandre Allauzen ( LIMSI-CNRS & Univ. Paris-Sud)
- Résumé : Cette étude tire profit des avancées en traitement automatique de la parole pour analyser des archives audiovisuelles françaises. Un corpus de 10 heures couvrant plus de cinq décennies de bulletins d'information est examiné sous l'angle de l'évolution de la prosodie. Cet article se focalise sur l'accent initial, qui peut donner une impression de style emphatique. Nos mesures suggèrent que les paramètres suivants, de même que le pitch moyen, ont diminué depuis les années 1940 : la montée mélodique et la durée vocalique associées à l'accent initial. Dans le même temps, l'attaque des syllabes initiales supposées accentuées s'est allongée tandis que le débit de parole n'a pas changé. Ce résultat intrigant pose d'intéressantes questions pour la recherche sur la prosodie du français.
- article