Corpus ESTER 2
La campagne ESTER 2 s'appuie d'une part sur l'ensemble du corpus de la
campagne ESTER 1, complété par un corpus d'apprentissage
d'une centaine d'heure, spécifique à ESTER 2, ainsi que
des transcriptions rapides de radios africaines. Un sous-ensemble
du corpus composé de 6h est identifié comme corpus de
développement. Ces nouvelles données constituent le
corpus ESTER 2.
Dans le cadre du projet ANR
EPAC
:
Exploration de masse de documents audio pour l'extraction et le
traitement de la parole conversationnelle des transcriptions
manuelles d'environ 35h de données converstionnelles, extraites
des données ``non transcrites'' ESTER 1 sont mise à la
disposition des participants. Ce corpus est identifié comme le
corpus EPAC.
Corpus ESTER 2
-- Dans le cadre de la campagne ESTER 2
Phase 1, la Délégation Générale pour
l'Armement distribue un corpus d'émissions radiophoniques
manuellement transcrites (environ 100h). Le corpus ESTER 2 est
constitué d'émissions radiophoniques transcrites
manuellement d'une part et, d'autre part, de transcriptions rapides de
radios africaines. L'annotation des entités nommées
n'est présente que dans les données de
développement. Les émissions enregistrées
contiennent des émissions d'information, des dossiers
liés à l'actualité du moment et des
émissions plus conversationnelles.
Voir le plan
d'évaluation pour plus de détails concernant le
contenu.
Pour obtenir le corpus DGA, il est
nécéssaire de s'engager à participer à la
campagne d'évaluation en retournant (par mail ou par fax) l'
engagement de
participation complété et signé. À la
réception de cet engagement, la DGA vous fera parvenir un
identifiant permettant de récupérer
l'intégralité du corpus sur le
site ftp de la campagne.
Corpus EPAC -- Le
corpus EPAC est constitué de la transcription manuelle d'environ
45h de
parole conversationnelle, extraites des données non transcrites
ESTER 1 Phase 2. Ces transcriptions, développées dans le
cadre du
projet ANR " EPAC :
Exploration de masse de documents audio pour l'extraction et le
traitement de la parole conversationnelle " (MDCA 2006), sont
disponibles sur le site du projet EPAC. Il est à
noter que le projet EPAC ne distribue que la transcription, le signal
correspondant faisant parti du corpus ESTER 1 Phase 2 non transcrit.
Les corpus utilisés
pour la campagne ESTER , utilisé lors de la phase 2 de la
campagne ESTER 1, se compose des éléments
suivants :
- un corpus audio manuellement transcrit (environ 100
heures)
- un corpus audio non transcrit (environ 2000 heures)
- un corpus de textes du journal Le Monde
- un corpus de textes provenant de transcriptions du
Les corpus audio (transcrit ou pas) se composent d'enregistrements des
informations à la radio, enregistrés sur plusieurs
chaîne de radio. Les données transcrites proviennent
principalement de France-Inter, France-Info, Radio France International
et Radio Télévision Marocaine. Les données non
transcrites contiennent en plus des enregistrements de France Culture.
Un "package" d'évaluation regroupe l'ensemble de ces
données ainsi que les protocoles d'évaluation et les
outils de mesure des performances.
Les trois corpus (transcrit, non transcrit, textes) sont partiellement
décrits dans "
The ESTER
evaluation campaign of Rich
Transcription of French Broadcast News" (LREC 2004) et dans "
The ESTER
Phase II Evaluation Campaign
for the Rich Transcription of French Broadcast News" (Interspeech
2005). La présentation effectuée lors de la
journée "
Corpus ESTER: exploitation du corpus en
phonétique et
linguistique" du 12 mai 2005
contient également des informations concernant les règles
d'annotation. Le
guide
d'annotation donne un apercu plus détaillé des
conventions utilisées pour l'annotation.
Les différents corpus ainsi que le package d'évaluation
sont diffusés par ELRA (référence ELRA
E0021). Le corpus transcrit est disponible
aux tarifs suivants:
recherche
académique
|
300 euros (membres
de ELRA ou AFCP) |
|
2 000 euros (non
membres) |
recherche industriel |
5
000 euros |
utilisation
commercial |
20 000 euros |
Pour passer commande,
contactez
ELRA (avec copie à l'AFCP si vous demandez le tarif membre
AFCP).
Attention : le corpus
diffusé sous la référence ELRA E0021 n'inclut pas
les données produites par la Délégation
Générale à l'Armement (environ 20h). Ces
dernières doivent être demandé directement
auprès de la DGA.
Les techniques de traitement automatique de la parole permettent de
générer automatiquement des ressources
dérivées telles que des alignements phonétiques,
des graphes de mots ou encore des listes d'hypothèses. Des
exemples de telles ressources sont données dans la
présentation "
Corpus ESTER: exploitation du corpus en
phonétique et
linguistique" du 12 mai 2005. L'
espace public d'échange de ressources
ESTER est destiné à collecter et à diffuser de
telles ressources.