Corpus ETAPE
La campagne ETAPE vise à produire un corpus contenant entre 30
et 40 heures d'émissions télévisés et
radio avec un fort taux de parole spontanée. Les transcriptions
seront enrichies par une annotation des entités
nommées. Une partie des données ESTER et ETAPE sera
également enrichie par des alignements phonétiques et
des arbres syntaxiques. Ces données seront diffusées par
ELRA à l'issue de la campagne d'évaluation
(prévue en février 2012).
Corpus ESTER 2
Dans le cadre de la campagne ESTER 2, la Délégation
Générale pour l'Armement distribue un corpus
d'émissions radiophoniques manuellement transcrites (environ
100h). Le corpus ESTER 2 est constitué d'émissions
radiophoniques transcrites manuellement d'une part et, d'autre part,
de transcriptions rapides de radios africaines. L'annotation des
entités nommées n'est présente que dans les
données de développement. Les émissions
enregistrées contiennent des émissions d'information,
des dossiers liés à l'actualité du moment et des
émissions plus conversationnelles.
Voir le plan
d'évaluation pour plus de détails concernant le
contenu.
Contactez nous pour obtenir les données ESTER
2.
Corpus ESTER 1
Les données utilisées pour la campagne ESTER 1 (Phase 2)
se composent des éléments suivants :
- un corpus audio manuellement transcrit (environ 100 heures,
produite par la DGA et ELRA)
- un corpus audio non transcrit (environ 2000 heures)
- un corpus de textes du journal Le Monde (1987-2003)
Les corpus audio (transcrit ou pas) se composent d'enregistrements des
informations à la radio, enregistrés sur plusieurs
chaîne de radio. Les données transcrites proviennent
principalement de France-Inter, France-Info, Radio France
International et Radio Télévision Marocaine. Les
données non transcrites contiennent en plus des enregistrements
de France Culture.
Les trois corpus (transcrit, non transcrit, textes) sont partiellement
décrits dans "
The ESTER
evaluation campaign of Rich Transcription of French Broadcast
News" (LREC 2004) et dans "
The ESTER Phase II
Evaluation Campaign for the Rich Transcription of French Broadcast
News" (Interspeech 2005). La présentation effectuée
lors de la journée "
Corpus ESTER:
exploitation du corpus en phonétique et linguistique" du 12
mai 2005 contient également des informations concernant les
règles d'annotation. Le
guide d'annotation donne un apercu plus
détaillé des conventions utilisées pour
l'annotation. Une ré-annotation du corpus ESTER 1 en entités nommées,
selon les règles d'annotation développées dans le cadre du projet
Quaero et adoptées pour la campagne ETAPE
sera prochainement mise à disposition par les partenaires du projet
Quaero.
Un "package" d'évaluation, distribué par ELRA
(réf. ELRA E0021), regroupe l'ensemble de ces données
ainsi que les protocoles d'évaluation et les outils de mesure
des performances. Pour passer commande,
contactez ELRA (avec copie à
l'AFCP si vous demandez le tarif membre AFCP).
Attention : le corpus
diffusé sous la référence ELRA E0021 n'inclut pas
les données produites par la Délégation
Générale à l'Armement (environ 20h). Ces
dernières doivent être demandé directement
auprès de la DGA.
Corpus EPAC
Le corpus EPAC est constitué de la transcription manuelle
d'environ 100h de parole conversationnelle, extraites des
données non transcrites ESTER 1, ainsi que des transcriptions
automatiques de l'ensemble des données non transcrites. Ces
transcriptions, développées dans le cadre du projet
Exploration de
masse de documents audio pour l'extraction et le traitement de la
parole conversationnelle (ANR MDCA 2006 EPAC), sont disponibles au
catalogue ELDA (ref. ELDA-S0305). Il est à noter que le projet
EPAC ne distribue que la transcription, le signal correspondant
faisant parti du corpus ESTER 1 non transcrit.