Partenaires

Corpora pour l'évaluation

Dernier ajout : 19 juin 2011.
Corpus ETAPE

La campagne ETAPE vise à produire un corpus contenant entre 30 et 40 heures d'émissions télévisés et radio avec un fort taux de parole spontanée. Les transcriptions seront enrichies par une annotation des entités nommées. Une partie des données ESTER et ETAPE sera également enrichie par des alignements phonétiques et des arbres syntaxiques. Ces données seront diffusées par ELRA à l'issue de la campagne d'évaluation (prévue en février 2012).

Corpus ESTER 2

Dans le cadre de la campagne ESTER 2, la Délégation Générale pour l'Armement distribue un corpus d'émissions radiophoniques manuellement transcrites (environ 100h). Le corpus ESTER 2 est constitué d'émissions radiophoniques transcrites manuellement d'une part et, d'autre part, de transcriptions rapides de radios africaines.  L'annotation des entités nommées n'est présente que dans les données de développement. Les émissions enregistrées contiennent des émissions d'information, des dossiers liés à l'actualité du moment et des émissions plus conversationnelles.  Voir le plan d'évaluation pour plus de détails concernant le contenu.

Contactez nous pour obtenir les données ESTER 2.

Corpus ESTER 1

Les données utilisées pour la campagne ESTER 1 (Phase 2) se composent des éléments suivants :
  • un corpus audio manuellement transcrit (environ 100 heures, produite par la DGA et ELRA)
  • un corpus audio non transcrit (environ 2000 heures)
  • un corpus de textes du journal Le Monde (1987-2003)
Les corpus audio (transcrit ou pas) se composent d'enregistrements des informations à la radio, enregistrés sur plusieurs chaîne de radio. Les données transcrites proviennent principalement de France-Inter, France-Info, Radio France International et Radio Télévision Marocaine. Les données non transcrites contiennent en plus des enregistrements de France Culture.

Les trois corpus (transcrit, non transcrit, textes) sont partiellement décrits dans "The ESTER evaluation campaign of Rich Transcription of French Broadcast News" (LREC 2004) et dans "The ESTER Phase II Evaluation Campaign for the Rich Transcription of French Broadcast News" (Interspeech 2005). La présentation effectuée lors de la journée "Corpus ESTER: exploitation du corpus en phonétique et linguistique" du 12 mai 2005 contient également des informations concernant les règles d'annotation. Le guide d'annotation donne un apercu plus détaillé des conventions utilisées pour l'annotation. Une ré-annotation du corpus ESTER 1 en entités nommées, selon les règles d'annotation développées dans le cadre du projet Quaero et adoptées pour la campagne ETAPE sera prochainement mise à disposition par les partenaires du projet Quaero.

Un "package" d'évaluation, distribué par ELRA (réf. ELRA E0021), regroupe l'ensemble de ces données ainsi que les protocoles d'évaluation et les outils de mesure des performances. Pour passer commande, contactez ELRA (avec copie à l'AFCP si vous demandez le tarif membre AFCP).

Attention : le corpus diffusé sous la référence ELRA E0021 n'inclut pas les données produites par la Délégation Générale à l'Armement (environ 20h). Ces dernières doivent être demandé directement auprès de la DGA.



Corpus EPAC

Le corpus EPAC est constitué de la transcription manuelle d'environ 100h de parole conversationnelle, extraites des données non transcrites ESTER 1, ainsi que des transcriptions automatiques de l'ensemble des données non transcrites. Ces transcriptions, développées dans le cadre du projet Exploration de masse de documents audio pour l'extraction et le traitement de la parole conversationnelle (ANR MDCA 2006 EPAC), sont disponibles au catalogue ELDA (ref. ELDA-S0305). Il est à noter que le projet EPAC ne distribue que la transcription, le signal correspondant faisant parti du corpus ESTER 1 non transcrit.
Contact : webmaster-afcp@afcp-parole.org - Hébergement : Université d'Avignon
Développé sous SPIP