Corpus ESTER

Corpus ESTER 2

La campagne ESTER 2 s’appuie d’une part sur l’ensemble du corpus de la campagne ESTER 1, complété par un corpus d’apprentissage d’une centaine d’heures, spécifique à ESTER 2, ainsi que des transcriptions rapides de radios africaines. Un sous-ensemble du corpus composé de 6h est identifié comme corpus de développement. Ces nouvelles données constituent le corpus ESTER 2.
Dans le cadre du projet ANR EPAC : Exploration de masse de documents audio pour l’extraction et le traitement de la parole conversationnelle des transcriptions manuelles d’environ 35h de données conversationnelles, extraites des données « non transcrites » ESTER 1 sont mises à la disposition des participants. Ce corpus est identifié comme le corpus EPAC.

Corpus ESTER 2 — Dans le cadre de la campagne ESTER 2 Phase 1, la Délégation Générale pour l’Armement distribue un corpus d’émissions radiophoniques manuellement transcrites (environ 100h). Le corpus ESTER 2 est constitué d’émissions radiophoniques transcrites manuellement d’une part et, d’autre part, de transcriptions rapides de radios africaines. L’annotation des entités nommées n’est présente que dans les données de développement. Les émissions enregistrées contiennent des émissions d’information, des dossiers liés à l’actualité du moment et des émissions plus conversationnelles. Voir le plan d’évaluation pour plus de détails concernant le contenu.

Corpus EPAC — Le corpus EPAC est constitué de la transcription manuelle d’environ 45h de parole conversationnelle, extraites des données non transcrites ESTER 1 Phase 2. Ces transcriptions, développées dans le cadre du projet ANR  » EPAC : Exploration de masse de documents audio pour l’extraction et le traitement de la parole conversationnelle  » (MDCA 2006), sont disponibles sur le site du projet EPAC. Il est à noter que le projet EPAC ne distribue que la transcription, le signal correspondant faisant parti du corpus ESTER 1 Phase 2 non transcrit.

Corpus ESTER 1

Les corpus utilisés pour la campagne ESTER, lors de la phase 2 de la campagne ESTER 1, se composent des éléments suivants :

  • – un corpus audio manuellement transcrit (environ 100 heures)
  • – un corpus audio non transcrit (environ 2000 heures)
  • – un corpus de textes du journal Le Monde

Les corpus audio (transcrit ou pas) se composent d’enregistrements des informations à la radio, enregistrés sur plusieurs chaîne de radio. Les données transcrites proviennent principalement de France-Inter, France-Info, Radio France International et Radio Télévision Marocaine. Les données non transcrites contiennent en plus des enregistrements de France Culture.
Un « package » d’évaluation regroupe l’ensemble de ces données ainsi que les protocoles d’évaluation et les outils de mesure des performances.

Les trois corpus (transcrit, non transcrit, textes) sont partiellement décrits dans « The ESTER evaluation campaign of Rich Transcription of French Broadcast News » (LREC 2004) et dans « The ESTER Phase II Evaluation Campaign for the Rich Transcription of French Broadcast News » (Interspeech 2005). La présentation effectuée lors de la journée « Corpus ESTER: exploitation du corpus en phonétique et linguistique » du 12 mai 2005 contient également des informations concernant les règles d’annotation. Le guide d’annotation donne un apercu plus détaillé des conventions utilisées pour l’annotation.

Publications relatives aux corpus ESTER :



Les différents corpus ainsi que le package d’évaluation sont diffusés par ELRA (référence ELRA E0021).