Un modèle parallèle pour la reconnaissance automatique du locuteur.

Résumé:

Ce travail concerne l’introduction d’un modèle parallèle pour l’identification automatique du locuteur. Le choix d’une telle approche réside dans l’hypothèse que des reconnaisseurs travaillant indépendamment sur différents sous-ensembles de paramètres acoustiques sont plus robustes qu’un seul reconnaisseur utilisant l’espace acoustique dans sa globalité. Cette robustesse est cependant conditionnée par de nombreux facteurs qui sont étudiés, ici, dans le cas particulier d’un système multibandes.

Le choix de l’architecture multibandes est tout d’abord discuté et nous mettons en évidence les bandes de fréquence les plus utiles pour l’identification automatique du locuteur. Cependant, il ne ressort pas de cette étude préliminaire une configuration optimale (taille et nombre de sous-bandes, recouvrement entre les bandes) permettant d’aborder le problème de la fusion des reconnaisseurs avec une architecture fixée une fois pour toutes.

Le choix d’une stratégie pour combiner les scores ou les décisions issus de chaque sous-bande fréquentielle est donc abordé sachant que architecture et fusion sont intimement liées. Nous traitons le problème de la recombinaison dans le cadre théorique de la fusion de multiples reconnaisseurs. Les trois aspects, à notre avis essentiels, du processus de fusion sont abordés : homogénéisation des scores à recombiner ; pondération et critères d’apprentissage des poids ; choix de l’opérateur de fusion numérique. Les principaux opérateurs de fusion numérique sont réunis sous un formalisme commun et une étude théorique sur la sensibilité aux erreurs de ces opérateurs est proposée. Enfin, nous abordons le problème de l’accumulation des scores de recombinaison obtenus sur plusieurs segments temporels, permettant de prendre une décision pour la totalité d’un signal de test. Ce problème dépasse le cadre de notre architecture multibandes car il se pose également pour tout système de reconnaissance où une décision finale doit être prise avec une série de scores de vraisemblance obtenus en ligne. Cette étape d’accumulation peut être traitée de façon similaire à un problème de fusion multi-reconnaisseurs. Ainsi, nous avons envisagé de remplacer la double phase recombinaison / accumulation par un module unique d’accumulation de scores préalablement normalisés, indépendamment du segment temporel ou de la sous-bande fréquentielle dont ils proviennent. A cet effet, une approche conjointe d’élagage temporel et fréquentiel est formalisée puis expérimentée.

Les résultats expérimentaux montrent que certains opérateurs de fusion permettent d’obtenir des performances équivalentes à une approche conventionnelle sur des signaux de parole propres. Dans le cas de la parole partiellement bruitée, notre approche multibandes se révèle beaucoup plus robuste, quels que soient les opérateurs de fusion utilisés. La procédure d’élagage temps-fréquence conduit quant à elle à une réduction du taux d’erreur significative sur TIMIT et NTIMIT (jusqu’à 41% de réduction du taux d’erreur d’identification sur TIMIT) pour des durées courtes d’apprentissage et de test.