Identification audio pour la reconnaissance de la parole

Résumé :
Cette thèse de doctorat se place dans le cadre de la reconnaissance de la parole dans des documents audio. Le but de ce travail est d’adapter les principes de l’identification audio pour la reconnaissance de la parole ainsi que concevoir et développer des techniques d’identification robustes. Les systèmes d’identification audio par empreinte (audio fingerprinting) sont conçus pour l’indexation d’extraits de musique mais ne traitent pas des spécificités du signal de parole. Dans un premier temps, différentes méthodes d’identification audio par empreinte sont étudiées ainsi qu’un premier travail d’adaptation à la reconnaissance de la parole. Ce travail est poursuivi par le développement d’un système d’identification audio par empreinte dédié à la tâche de décodage acoustico-phonétique. De nouveaux types de sous-empreinte basés sur des paramètres usuels de la parole sont alors proposés. Dans un second temps, les différents types de variabilité du signal de parole sont décrits ainsi que les principaux paramètres de représentation acoustique du signal de parole. La robustesse de différents types de sous-empreinte à la variabilité extrinsèque et à la variabilité intrinsèque est évaluée. En présence de perturbations liées à l’environnement et aux conditions de transmission du signal de parole (CTIMIT), un type de sous-empreinte issu de l’identification audio s’avère alors le plus robuste.