Exploitation de la prosodie pour la segmentation et l’analyse automatique de signaux de parole

Résumé :

Cette thèse se situe à la frontière des domaines du traitement automatique de la parole et de la recherche d’informations multimédia. Ces dernières années, une nouvelle tâche est apparue dans le domaine du traitement automatique de la parole : la transcription enrichie d’un document audio. Parmi les informations extra-linguistiques transportées par la parole, une meta-donnée importante pour la transcription enrichie concerne l’information sur la nature des phrases parlées (c’est-à-dire les phrases sont-elles du type interrogatif ou affirmatif ou autre).

Notre étude a principalement porté sur la différence prosodique entre les phrases de type affirmatif et de type interrogatif pour les langues française et vietnamienne, la détection et la classification automatique du type de phrase pour chacune des deux langues et la comparaison des stratégies spécifiques à chacune des deux langues. Nous avons commencé notre travail par l’étude sur la langue française. Nous avons ainsi réalisé un système de segmentation et détection automatique de type de phrases basé à la fois sur l’information prosodique et sur l’information lexicale. Le système a été validé sur des corpus de parole spontanée de la vie courante qui sont l’enregistrement de conversations téléphoniques entre un client et une agence de tourisme, des entretiens d’embauche ou des réunions de projet.

Après cette première étude sur la langue française, nous avons élargit notre recherche en travaillant sur la langue vietnamienne, une langue où les études de base sur le système prosodique sont encore toutes préliminaires. Nous avons d’abord poursuivi une étude pour identifier la différence prosodique entre les phrases interrogatives et affirmatives à la fois sur le plan de production et sur le plan de perception. Ensuite, sur la base de ces résultats, un moteur de classification a été construit.

Mots-clés : indexation, détection de questions, modèle prosodique, modèle lexical, recherche d’informations multimédia, arbre de décision