Session JEP poster - P1

Lundi 9 Juin - 16h00 18h00

papier 1567 Codage robuste des paramètres LSF du codeur de parole FS1016 : Transmissions à travers un canal bruité

Merouane Bouzid  ( Université USTHB)

Bachir Boudraa  ( Université USTHB)

Résumé : Résumé : Dans cet article, nous présentons un système de codage robuste des paramètres spectraux LSF conçu à base de la quantification vectorielle codée par treillis et optimisé pour un canal bruité. Le but de ce système, conçu au début pour un canal non bruité, est de réaliser une quantification transparente à bas débit des paramètres LSF du codeur de parole de la norme fédéral FS1016. Après avoir prouvé l'efficacité de notre encodeur des LSF dans le cas des transmissions idéales à travers un canal non bruité, nous nous sommes intéressés par la suite à l'amélioration de sa robustesse pour des transmissions à travers un canal bruité. Pour protéger implicitement les indices de transmission de cet encodeur, incorporé dans le FS1016, nous avons utilisé un codage conjoint source-canal mis en œuvre par la méthode de quantification vectorielle optimisée pour un canal bruité.

article

papier 1568 Transcription automatique pour malentendants : amélioration à l'aide de mesures de confiance locales

Joseph Razik  ( LORIA)

Odile Mella  ( LORIA)

Dominique Fohr  ( LORIA)

Jean-Paul Haton  ( LORIA)

Résumé : Dans cet article nous présentons l'utilisation de mesures de confiance afin d'améliorer la compréhension de transcriptions automatiques par des malentandants. Pour cette étude, nous nous plaçons dans le cadre d'émissions ou de flux en directs automatiquement transcrits par un système de reconnaissance grand vocabulaire. Nous avons défini des mesures de confiance locales qui peuvent être estimées au plus tôt, sans attendre la fin du processus de reconnaissance. Ces mesures obtiennent des performances proches de la mesure de référence actuellement la plus précise du domaine et calculée a posteriori sur l'intégralité du signal. Nous avons mené une expérimentation afin d'évaluer l'apport de notre mesure de confiance dans l'amélioration de la compréhension d'une transcription automatique contenant des erreurs. Nous avons introduit plusieurs modalités de mise en valeur des mots de faible confiance dans ces transcriptions. Nous avons alors montré que ces modalités peuvent améliorer la compréhension de transcriptions automatiques.

article

papier 1583 Traitements Automatiques de Palatogrammes (Palatographie directe)

Thierry Legou  ( CNRS - LPL (UMR6057))

Alain Marchal  ( CNRS - LPL (UMR6057))

Yohann Meynadier  ( CNRS - LPL (UMR6057))

Carine Andre  ( CNRS - LPL (UMR6057))

Résumé : Outil d'analyse de photographies numériques de palais (palatogrammes) qui permet d'extraire les caractéristiques de l'empreinte laissée par la langue sur le palais. Le fait de disposer de caractéristiques géométriques de l'empreinte permet d'envisager des comparaisons intra et inter locuteurs.

article

papier 1594 Combinaison des sorties de plusieurs microphones pour l'amélioration de la reconnaissance vocale embarquée

Yannick Hallé  ( France Telecom R&D)

Lionel Delphin-Poulat  ( France Telecom R&D)

Résumé : In this paper, we propose to improve a speech recognition system intended to control in-car accessories such as navigation system. We focus our study on the speech signal recorded in the noisy in-car environment. The method proposed is to perform an acoustic analysis with embedded noise reduction and waveform processing on this signal, to train speech models by using bases of in-car audio recordings and to use the differences between the outputs from several microphones with the ROVER approach.

article

papier 1605 Segmentation parole/musique par Machines à Vecteurs de Support

Mathieu Ramona  ( RTL (Ediradio) & TELECOM ParisTech / LTCI-CNRS)

Gaël Richard  ( TELECOM ParisTech / LTCI-CNRS)

Résumé : Nous comparons dans cet article différentes approches hiérarchiques et multiclasses pour la tâche de segmentation parole/musique, basées sur des Machines à Vecteurs de Support combinées à un post-traitement par filtrage médian. Nous montrons l'avantage des approches multiclasses sur les taxonomies hiérarchiques évaluées. Les performances dépassent notablement les résultats réunis par la campagne d'évaluation ESTER, avec une F-mesure globale de plus de 96%. Nous montrons en outre la pertinence des SVM dans ce cadre, pour des vecteurs d'attributs de très faible dimension.

article

papier 1612 Séparation de sources non-stationnaires par la parcimonie pour un mélange linéaire instantané

Bertrand Rivet  ( GIPSA-Lab, CNRS-UMR 5216, Grenoble INP)

Résumé : We propose a method to estimate non-stationnary sources with non activity periods in a determined linear instantaneous mixture. Our method is based on the assumption that in some unknown temporal periods speech signals are inactive leading thus to an overdetermined mixture. Such silence periods allow to estimate the rows of the demixing matrix by a new algorithm called Direction Estimation of Separating Matrix (DESM). The periods of sources inactivity are estimated by a generalized eigen decomposition of covariance matrices of the mixtures, and the separating matrix is then estimated by a kernel principal component analysis. Experiments are provided with determined mixtures, and shown to be efficient.

article

papier 1631 Construction et exploitation des réseaux de confusion dans le contexte d'une application de dialogue en langage naturel

Bogdan Minescu  ( France Telecom, Orange Labs)

Géraldine Damnati  ( France Telecom, Orange Labs)

Résumé : In the context of Spoken Language Understanding (SLU), post-processing rich Automatic Speech Recognition outputs such as word lattices rather than processing a single one-best solution has proven to be an efficient way of improving applicative performances but also to propagate uncertainty towards further applicative modules in order to delay the final decision. Confusion Networks consist in summarizing the information available in a word lattice into the form of a sequence of classes of local alternative hypotheses, while providing reliable confidence measures on these hypotheses. This study presents a strategy whose goal is to reject non-relevant messages as early as possible and to compute Confusion Networks only for relevant messages. On the basis of this strategy, an improved, SLU oriented, CN generation algorithm is also proposed that significantly reduces the size of the obtained CN while improving the recognition performances.

article

papier 1671 Inversion des fricatives par codebook hypercuboïque

Farid Feiz  ( LORIA)

Blaise Potard  ( LORIA)

Yves Laprie  ( LORIA)

Résumé : The objective is to recover the vocal tract shape dynamics from the speech signal of vowels and fricatives. The method relies on the analysis-by-synthesis paradigm and is an extension of the method proposed by Ouni and Laprie which exploits a hypercubic articulatory table to represent the synthesis facet, i.e. Maeda's articulatory model. The first major modification is the use of parallelepiped instead of cubes. The new construction strategy only subdivides the articulatory space in the articulatory direction which gives rise to the strongest non-linearities. This enables a substantial reduction of the table size. The second major modification is the inversion of fricative sounds. In addition to the articulatory parameters the relative location of the noise source downstream the constriction is taken into account. This gives rise to three different articulatory codebooks, each corresponding to the relative position of the source with respect to the main constriction. This new inversion method has been evaluated on VCV sequences.

article

papier 1681 Etude simultanée des mouvements du voile du palais et de l'ouverture du port vélopharyngé

Angélique Amelot  ( Laboratoire de Phonétique et de Phonologie de Paris (LPP), CNRS/Univ. Paris 3)

Patricia Basset  ( Laboratoire de Phonétique et de Phonologie de Paris (LPP), CNRS/Univ. Paris 3)

Shinji Maeda  ( TELECOM ParisTech)

Kiyoshi Honda  ( Laboratoire de Phonétique et de Phonologie de Paris (LPP), CNRS/Univ. Paris 3)

Lise Crevier-Buchman  ( Laboratoire de Phonétique et de Phonologie de Paris (LPP), CNRS/Univ. Paris 3)

Résumé : Simultaneous photoelectric (nasograph) and video-fiberscopic technique was used to evaluate the difference in the temporal patters of French nasal vowels among acoustics (Vn), velopharyngeal port opening/closing (OV), and velar movements (MV) for two speakers. As expected MV starts before OV and it also starts before the vowel acoustic onset Vn for the two speakers. The opening phase of the velopharyngeal port is longer than the closing phase. The velum position (height) necessary to open the velopharyngeal port appears to be constant regardless of the identity of the nasal vowels and phonetic contexts.

article