Résumé automatique de parole pour un accès efficace aux bases

Résumé :

L’avènement du numérique permet de stocker de grandes
quantités de parole à moindre coût. Malgré les récentes avancées en
recherche documentaire audio, il reste difficile d’exploiter les
documents à cause du temps nécessaire pour les écouter. Nous tentons
d’atténuer cet inconvénient en produisant un résumé automatique parlé
à partir des informations les plus importantes.

Pour y parvenir, une
méthode de résumé par extraction est appliquée au contenu parlé,
transcrit et structuré automatiquement. La transcription enrichie est
réalisée grâce aux outils Speeral et Alize développés au LIA. Nous
complétons cette chaîne de structuration par une segmentation en
phrases et une détection des entités nommées, deux caractéristiques
importantes pour le résumé par extraction. La méthode de résumé
proposée prend en compte les contraintes imposées par des données
audio et par des interactions avec l’utilisateur. De plus, cette
méthode intègre une projection dans un espace pseudo-sémantique des
phrases. Les différents modules mis en place aboutissent à un
démonstrateur complet facilitant l’étude des interactions avec
l’utilisateur. En l’absence de données d’évaluation sur la parole, la
méthode de résumé est évaluée sur le texte lors de la campagne DUC
2006. Nous simulons l’impact d’un contenu parlé en dégradant
artificiellement les données de cette même campagne. Enfin, l’ensemble
de la chaîne de traitement est mise en \oeuvre au sein d’un
démonstrateur facilitant l’accès aux émissions radiophoniques de la
campagne ESTER. Nous proposons, dans le cadre de ce démonstrateur, une
frise chronologique interactive complémentaire au résumé parlé.