Méthodes neuronales pour l’extraction de caractéristiques non linéaires et discriminantes – application aux signaux de parole

Résumé : L’extraction de caractéristiques du signal de parole est un domaine de l’analyse du signal peu exploré par la communauté de recherche en parole. La raison principale en est que nous disposons aujourd’hui d’outils performants des outils essentiellement fondés sur l’analyse fréquentielle des signaux pour leur paramétrisation et des outils d’analyse statistique pour leur classification. Les applications en reconnaissance de la parole les plus évoluées se heurtent cependant à de grande difficultés lorsqu’il s’agit de traiter de signaux en environnement fortement perturbé comme la téléphonie cellulaire par exemple. Des auteurs ont souligné récemment l’importance de revenir sur certains aspects de la chaine de traitement – l’extraction de caractéristiques en particulier – quitte à renoncer – pour un temps au moins – à la course aux performances en terme de scores de reconnaissance.

Le travail présenté dans ce mémoire propose de reprendre les toutes premières étapes de traitement des systèmes de reconnaissance de la parole – à savoir l’extraction de caractéristiques et la classification phonétique. Une nouvelle modélisation permettant de prendre en compte les caractéristiques non linéaires du processus de production de la parole est proposée. Fondée sur l’utilisation d’un perceptron multicouches, elle permet de sursoir aux limites bien connues des systèmes connexionnistes appliqués à la modélisation non linéaire des signaux – la complexité des calculs requis – difficilement compatible avec les applications temps réel – la non unicité des solutions obtenues – la multiplicité des paramètres libres requis.

Un ensemble de validations expérimentales est proposé et un projet de recherche portant sur l’utilisation conjointe de cartes auto-organisantes prédictives et de perceptrons multicouches pour l’extraction non supervisée de caractéristiques est présenté.