Estimation de fréquences fondamentales multiples en vue de la séparation de signaux de parole mélangés dans un même canal

Auteur : F. SIGNOL, Université Paris-Sud, 2009

Résumé :
Cette thèse apporte deux contributions principales : d’une part, un nouvel algorithme d’estimation multipitch (AEPm) conçu pour traiter des mélanges de parole et d’autre part, une analyse des méthodologies d’évaluation possibles en situation multipitch qui a résulté sur une évaluation comparative de notre algorithme avec l’existant. L’algorithme multipitch proposé est purement trame-à-trame et repose sur une approche strictement fréquentielle (pattern matching). Il utilise deux familles de peignes spectraux nommées Peignes à Dents Négatives et Peigne à Dents Manquantes. Une implémentation rapide (environ temps-réel) a été réalisée afin de pouvoir utiliser l’algorithme comme une étape élémentaire de traitement dans un système plus complexe (ie. séparation monaurale de parole mélangée). Dans une situation bipitch (mélange de deux locuteurs), l’algorithme est capable d’estimer correctement (avec une tolérance de 20%) environ 90% des valeurs F0 de référence. De plus, environ 85%
des trames sont bien estimées (toutes les valeurs F0 de référence de la trame sont bien estimés). Ces résultats sont très prometteur pour la suite et devrait nous permettre de mettre en place un algoritme de suivi de F0 assez facilement. L’évaluation comparative de plusieurs AEPm est une tâche délicate et oblige à une équité parfaite. Cette thèse met en évidence l’influence critique de la décision voisé/non-voisé (détection de F0) sur les taux d’erreurs grossières classiquement utilisés comme critère de performance. Ce problème est connu mais son influence est souvent sous-estimé.