Résumé:
Ce travail a consisté à étudier la manière d’intégrer une représentation de la parole à base de traits phonétiques distinctifs binaires dans un système hybride de reconnaissance automatique de la parole. Nous nous attachons, en particulier, à déterminer sous quelles hypothèses la reconnaissance par traits effectuée par un perceptron multicouches peut être intégrée dans le cadre probabiliste des modèles de Markov cachés. Ensuite, nous proposons une nouvelle fagon de modéliser la dépendance contextuelle des phonèmes à l’aide de traits décrivant les propriétés dynamiques de la parole. Puis, nous étendons notre approche à toutes les représentations distribuées de la parole. Nous présentons un algorithme permettant d’extraire des traits binaires, qui ne sont plus des traits phonétiques, directement à partir des données. Enfin, nous décrivons en détail plusieurs expériences réalisées sur des bases de données différentes. Nos résultats atteignent les performances de l’état de l’art sur une base de données mono-locuteur et ils sont très encourageants sur une base de données multi-locuteur.