Steps towards end-to-end neural speaker diarization - Association Francophone de la Communication Parlée

La tâche de segmentation et de regroupement en locuteurs (speaker diarization) consiste à identifier “qui parle quand” dans un flux audio. Plus précisément, il s’agit d’un processus non supervisé qui a pour objectif d’identifier les différents locuteurs d’un flux audio et de déterminer quel locuteur est actif à chaque instant. Le plus souvent, le nombre de locuteurs ou leurs identités ne sont pas connus a priori ; l’objectif est donc d’attribuer à chaque locuteur un identifiant anonyme unique. C’est une technologie clef dans des domaines comme la recherche d’information par le contenu, la biométrie vocale ou l’analyse des comportements sociaux. Les systèmes de segmentation et de regroupement en locuteurs sont généralement construits en combinant quatre étapes principales. Premièrement, les régions ne contenant pas de parole telles que les silences, la musique et le bruit sont supprimées par la détection d’activité vocale (voice activity detection). Ensuite, les régions de parole son t divisées en segments homogènes en locuteur par détection des changements de locuteurs (speaker change detection), puis regroupées en fonction de l’identité du locuteur (clustering). Enfin, les frontières des tours de parole et leurs étiquettes sont affinées avec une étape de re-segmentation. Dans cette thèse, nous proposons d’aborder ces quatre étapes avec des approches fondées sur les réseaux de neurones. Nous formulons d’abord le problème de la segmentation initiale (détection de l’activité vocale et des changements entre locuteurs) et de la re-segmentation finale sous la forme d’un ensemble de problèmes d’étiquetage de séquence basés sur les Mel-Frequency Cepstral Coefficients (MFCC), puis nous les résolvons avec des réseaux neuronaux récurrents de type LSTM bidirectionnels (\emphBidirectional Long Short-Term Memory). Pour la détection de parole ou la segmentation en tours de parole, l’ensemble de nos expériences sur la base de données télévisées ETAPE montrent que les réseaux neuronaux récurrents fonctionnent mieux que les modèles classiques par mélanges de Gaussiennes, en particulier sur la qualité des frontières. Au stade du regroupement des régions de parole, nous proposons d’utiliser l’algorithme de propagation d’affinité à partir de plongements neuronaux de ces tours de parole dans l’espace vectoriel des locuteurs. Des expériences sur la base de données ETAPE montrent que le regroupement par propagation d’affinité est plus approprié que le regroupement hiérarchique agglomératif lorsqu’il est appliquée à des plongements neuronaux de locuteurs qui permettent une projection discriminante des segments de parole. La segmentation basée sur les réseaux récurrents et la propagation d’affinité sont également combinées et optimisées conjointement pour former une chaîne de regroupement en locuteurs. Comparé à un système dont les modules sont optimisés indépendamment, la nouvelle chaîne de traitements apporte une amélioration significative. De plus, nous proposons d’améliorer l’estimation de la matrice de similarité par des réseaux neuronaux récurrents, puis d’appliquer un partitionnement spectral à partir de cette matrice de similarité améliorée. Le système proposé atteint des performances à l’état de l’art sur la base de données de conversation téléphonique CALLHOME issue de la campagne SRE 2000. Enfin, nous formulons le regroupement des tours de parole en mode séquentiel sous la forme d’une tâche supervisée d’étiquetage de séquence et abordons ce problème avec des réseaux récurrents empilés semblable à la détection d’activité vocale et détection des changements de locuteurs. Pour mieux comprendre le comportement du système, une analyse basée sur une architecture de codeur-décodeur est proposée. Sur des exemples synthétiques, nos systèmes apportent une amélioration significative par rapport aux méthodes de regroupement traditionnelles telles que le regroupement hiérarchique agglomératif et la propagation d’affinité.