Résumé :
Ce travail de thèse explore l’usage biométrique de la parole dont les applications sont très nombreuses (sécurité, environnements intelligents, criminalistique, surveillance du territoire ou authentification de transactions électroniques). La parole est soumise à de nombreuses contraintes fonction des origines du locuteur (géographique, sociale et culturelle) mais également fonction de ses objectifs performatifs. Le locuteur peut être considéré comme un facteur de variation de la parole, parmi d’autres. Dans ce travail, nous présentons des éléments de réponses aux deux questions suivantes :
- Tous les extraits de parole d’un même locuteur sont-ils équivalents pour le reconnaître~?
- Comment se structurent les différentes sources de variation qui véhiculent directement ou indirectement la spécificité du locuteur ?
Nous construisons, dans un premier temps, un protocole pour évaluer la capacité humaine à discriminer un locuteur à partir d’un extrait de parole en utilisant les données de la campagne NIST-HASR 2010. La tâche ainsi posée est difficile pour nos auditeurs, qu’ils soient naïfs ou plus expérimentés. Dans ce cadre, nous montrons que ni la (quasi) unanimité des auditeurs ni l’auto-évaluation de leurs jugements ne sont des gages de confiance dans la véracité de la réponse soumise.
Nous quantifions, dans un second temps, l’influence du choix d’un extrait de parole sur la performance des systèmes automatiques. Nous avons utilisé deux bases de données, NIST et BREF ainsi que deux systèmes de RAL, ALIZE/SpkDet (LIA) et Idento (SRI). Les systèmes de RAL, aussi bien fondés sur une approche UBM-GMM que sur une approche i-vector montrent des écarts de performances importants mesurés à l’aide d’une mesure de variation relative autour de l’EER moyen, $Vr$ (pour NIST, Vr_Idento=1.41 et Vr_ALIZE/SpkDet=1.47 et pour BREF, Vr=3.11) selon le choix du fichier d’apprentissage utilisé pour chaque locuteur. Ces variations de performance, très importantes, montrent la sensibilité des systèmes automatiques au choix des extraits de parole, sensibilité qu’il est important de mesurer et de réduire pour rendre les systèmes de RAL plus fiables.
Afin d’expliquer l’importance du choix des extraits de parole, nous cherchons les indices les plus pertinents pour distinguer les locuteurs de nos corpus en mesurant l’effet du facteur Locuteur sur la variance des indices (eta2). La F0 est fortement dépendante du facteur Locuteur, et ce indépendamment de la voyelle. Certains phonèmes sont plus discriminants pour le locuteur~: les consonnes nasales, les fricatives, les voyelles nasales, voyelles orales mi-fermées à ouvertes.
Ce travail constitue un premier pas vers une étude plus précise de ce qu’est le locuteur aussi bien pour la perception humaine que pour les systèmes automatiques. Si nous avons montré qu’il existait bien une différence cepstrale qui conduisait à des modèles plus ou moins performants, il reste encore à comprendre comment lier le locuteur à la production de la parole. Enfin, suite à ces travaux, nous souhaitons explorer plus en détail l’influence de la langue sur la reconnaissance du locuteur. En effet, même si nos résultats indiquent qu’en anglais américain et en français, les mêmes catégories de phonèmes sont les plus porteuses d’information sur le locuteur, il reste à confirmer ce point et à évaluer ce qu’il en est pour d’autres langues.