Campagne d'évaluation ESTER

Corpus ESTER 2

La campagne ESTER 2 s'appuie d'une part sur l'ensemble du corpus de la campagne ESTER 1, complété par un corpus d'apprentissage d'une centaine d'heure, spécifique à ESTER 2, ainsi que des transcriptions rapides de radios africaines. Un sous-ensemble du corpus composé de 6h est identifié comme corpus de développement. Ces nouvelles données constituent le corpus ESTER 2.

Dans le cadre du projet ANR EPAC : Exploration de masse de documents audio pour l'extraction et le traitement de la parole conversationnelle des transcriptions manuelles d'environ 35h de données converstionnelles, extraites des données ``non transcrites'' ESTER 1 sont mise à la disposition des participants. Ce corpus est identifié comme le corpus EPAC.

Corpus ESTER 2 -- Dans le cadre de la campagne ESTER 2 Phase 1, la Délégation Générale pour l'Armement distribue un corpus d'émissions radiophoniques manuellement transcrites (environ 100h). Le corpus ESTER 2 est constitué d'émissions radiophoniques transcrites manuellement d'une part et, d'autre part, de transcriptions rapides de radios africaines. L'annotation des entités nommées n'est présente que dans les données de développement. Les émissions enregistrées contiennent des émissions d'information, des dossiers liés à l'actualité du moment et des émissions plus conversationnelles. Voir le plan d'évaluation pour plus de détails concernant le contenu.

Pour obtenir le corpus DGA, il est nécéssaire de s'engager à participer à la campagne d'évaluation en retournant (par mail ou par fax) l'engagement de participation complété et signé. À la réception de cet engagement, la DGA vous fera parvenir un identifiant permettant de récupérer l'intégralité du corpus sur le site ftp de la campagne.

Corpus EPAC -- Le corpus EPAC est constitué de la transcription manuelle d'environ 45h de parole conversationnelle, extraites des données non transcrites ESTER 1 Phase 2. Ces transcriptions, développées dans le cadre du projet ANR " EPAC : Exploration de masse de documents audio pour l'extraction et le traitement de la parole conversationnelle " (MDCA 2006), sont disponibles sur le site du projet EPAC. Il est à noter que le projet EPAC ne distribue que la transcription, le signal correspondant faisant parti du corpus ESTER 1 Phase 2 non transcrit.

Les corpus utilisés pour la campagne ESTER , utilisé lors de la phase 2 de la campagne ESTER 1, se compose des éléments suivants :

un corpus audio manuellement transcrit (environ 100 heures)
un corpus audio non transcrit (environ 2000 heures)
un corpus de textes du journal Le Monde
un corpus de textes provenant de transcriptions du

Les corpus audio (transcrit ou pas) se composent d'enregistrements des informations à la radio, enregistrés sur plusieurs chaîne de radio. Les données transcrites proviennent principalement de France-Inter, France-Info, Radio France International et Radio Télévision Marocaine. Les données non transcrites contiennent en plus des enregistrements de France Culture.

Un "package" d'évaluation regroupe l'ensemble de ces données ainsi que les protocoles d'évaluation et les outils de mesure des performances.

Les trois corpus (transcrit, non transcrit, textes) sont partiellement décrits dans "The ESTER evaluation campaign of Rich Transcription of French Broadcast News" (LREC 2004) et dans "The ESTER Phase II Evaluation Campaign for the Rich Transcription of French Broadcast News" (Interspeech 2005). La présentation effectuée lors de la journée "Corpus ESTER: exploitation du corpus en phonétique et linguistique" du 12 mai 2005 contient également des informations concernant les règles d'annotation. Le guide d'annotation donne un apercu plus détaillé des conventions utilisées pour l'annotation.

Les différents corpus ainsi que le package d'évaluation sont diffusés par ELRA (référence ELRA E0021). Le corpus transcrit est disponible aux tarifs suivants:

recherche académique	300 euros (membres de ELRA ou AFCP)
	2 000 euros (non membres)
recherche industriel	5 000 euros
utilisation commercial	20 000 euros

Pour passer commande, contactez ELRA (avec copie à l'AFCP si vous demandez le tarif membre AFCP). Attention : le corpus diffusé sous la référence ELRA E0021 n'inclut pas les données produites par la Délégation Générale à l'Armement (environ 20h). Ces dernières doivent être demandé directement auprès de la DGA.

Les techniques de traitement automatique de la parole permettent de générer automatiquement des ressources dérivées telles que des alignements phonétiques, des graphes de mots ou encore des listes d'hypothèses. Des exemples de telles ressources sont données dans la présentation "Corpus ESTER: exploitation du corpus en phonétique et linguistique" du 12 mai 2005. L'espace public d'échange de ressources ESTER est destiné à collecter et à diffuser de telles ressources.