Résumé: Les modèles de Markov cachés sont à l’origine de la majorité des avancées récentes en reconnaissance de la parole continue. Ces modèles gèrent les distorsions temporelles du signal de parole en s’appuyant sur des densités de probabilité pour modéliser les distorsions en fréquence. Nous proposons d’améliorer leur performance à l’aide de l’estimateur de densité […]
Les thèses du domaine (en ligne depuis 1994)
Liste des thèses francophones traitant de la communication parlée.
Vous trouverez les plus récentes au format pdf ou ps compressés, ainsi que leur résumé.
Vous pouvez soumettre un manuscrit de thèse à l’aide de ce formulaire.
Analyse statistique à deux dimensions pour la modélisation segmentale du signal de parole: Application à la reconnaissance.
Résumé: Les modèles de Markov cachés sont utilisées en reconnaissance automatique de la parole par la plupart des laboratoires et industriels du domaine. Ils permettent de rendre compte efficacement de la variabilité temporelle. La variabilité fréquentielle n’est représentée que par une distribution de probabilités de paramètres spectraux estimés à court terme. Nous proposons de modéliser […]
Approche statistique pour la reconnaissance automatique du locuteur : informations dynamiques et normalisation bayesiennes des vraisemblances
Algorithmes évolutionnaires pour l’étude de la robustesse des systèmes de reconnaissance de la parole.
Résumé: Les systèmes de reconnaissance automatique de la parole sont de plus en plus répandus et utilisés dans des conditions acoustiques très variées, par des locuteurs très différents. De ce fait, ces systèmes, généralement conçus en laboratoire, doivent être robustes afin de garder des performances optimales en situation réelle. Les travaux que nous avons effectués […]
Stratégie d’analyse pour la Compréhension de la parole : vers une approche à base de Grammaires d’Arbres Adjoints Lexicalisées.
Résumé: L’intégration de la Reconnaissance de la Parole (RP) et du Traitement Automatique du Langage Naturel (TALN) est une problématique centrale pour la mise en place de systèmes de dialogue vocaux. En effet, la reconnaissance acoustique nécessite des informations linguistiques pour atteindre des performances acceptables, et de son côté la compréhension des énoncés reconnus doit […]
Contribution de l’approche multi-bandes à la reconnaissance automatique de la parole.
Reconnaissance et transformation de locuteurs.
Contribution à la vérification multi-modale de l’identité en utilisant la fusion de décisions
Résumé: La vérification automatique de l’identité d’une personne est utilisée dans beaucoup d’applications telles que l’accès à des services automatisés et à des endroits protégés (banques,…). Un facteur important, qui limite le développement de ces services, est la nécessité de diminuer la probabilité d’intrusion par des imposteurs (ce qu’on appelle le taux de fausses acceptations: […]
Structures de codage mixte de parole et musique.
Résumé: Le cadre de cette thèse est un contrat CTI financé par le CNET-France Telecom, dont l’objectif est de définir un codeur à débit variable hiérarchique, à délai réduit et de bonne qualité. Voici un sommaire en Francais de ma dérnière publication à ICASSP98: Le travail présenté dans ce papier est réalisé dans le cadre […]
Rythme et Discours: invariance et sources de variabilité des phénomènes accentuels en français.
Résumé: Notre recherche a pour objet la description du rythme du français, et plus particulièrement des phénomènes accentuels. Nous proposons de mettre en évidence les invariants rythmiques et accentuels de ce qui pourrait constituer le système noyau du français, ainsi que la part de variabilité inhérente à ce système lors de la mise en énonciation. […]