Vous trouverez ci-dessous une
présentation générale de la campagne ESTER (Phase
I et II) telle que proposée initialement dans le cadre du projet
EVALDA.
Contexte
Aux Etats-Unis, le DARPA, relayé par NIST, a organisé une
évaluation annuelle des systèmes de transcription
d'émissions (
HUB-4 Broadcast News
) de 1996 à 1999. L'intégration d'informations annexes,
pour enrichir la transcription, est apparue plus récemment
avec les campagnes annuelles d'extraction automatique de contenu (
Automatic
Content Extraction,
1999-2002) qui incluent une détection des entités
nommées
dans les transcriptions automatiques d'émissions, les campagnes
annuelles
de détection de thème (
Topic Detection
and Tracking, 1998-2002) et, plus récemment, la campagne
pour les transcriptions enrichies (
Rich
Transcription, 2002-2003) dont le but est d'enrichir la
transcription avec des informations concernant le locuteur. Le NIST a
également organisé des
campagnes
concernant la vérification du locuteur et la segmentation selon
le locuteur depuis 1996.
Ces campagnes ont connu un succès marqué, par le nombre
et la qualité des participants, et par le nombre de
publications;
elles ont également permis de dynamiser les recherches dans le
domaine du traitement du langage parlé, en mettant à la
disposition des chercheurs des ressources indispensables (corpus,
instruments de mesure des performances.) mais également en
favorisant les interactions entre les acteurs du domaine. Cependant,
les effets de ces campagnes se sont faits sentir essentiellement
outre-atlantique, pour des raisons évidentes de proximité
et de langue (les ressources proposées portent essentiellement
sur l'anglais).
Aucune campagne d'évaluation n'a été
organisée au niveau européen. En revanche, le projet
THISL (Thematic Indexing of Spoken Language) a favorisé le
développement de la recherche autour de l'indexation de
documents audio.
En France, une première campagne d''evaluation a
été organisée en 1997 dans le cadre des ARC (B1)
de l'AUF, portant sur la reconnaissance de parole lue (journalistique).
La transcription d'émissions radiophoniques avait
été envisagée lors de la préparation d'une
deuxième campagne d'évaluation, comme une suite logique.
Bien que cette deuxième campagne n'ait pas abouti, les
réunions de préparations ont clairement montré
l'intérêt des laboratoires à travailler sur la
transcription enrichie d'émissions en langue française.
L'organisation d'une telle évaluation permettrait de
fédérer les efforts de recherche des laboratoires
français et francophones dans ce domaine, de favoriser le
développement du traitement automatique de la langue
française et de dresser un panorama
des acteurs académiques et industriels comme de l'état de
l'art.
Acteurs
L'
Association
Francophone de la Communication Parlée (AFCP) est une
association (loi 1901) de type société savante dont le
but est d'animer et de promouvoir la communauté scientifique
dans le domaine de la communication parlée. Le projet
proposé, l'organisation d'une campagne d'évaluation dans
ce domaine, est donc en parfait accord avec les missions de l'AFCP, la
campagne elle-même permettant d'animer la communauté
scientifique tandis que la valorisation des résultats de la
campagne assure la promotion de la communauté. De plus, le
conseil d'administration de l'association regroupe des
représentants de la plupart des laboratoires français du
domaine dont un certain nombre ayant déjà
l'expérience des évaluations en reconnaissance de la
parole menées dans le cadre des ARC de l'AUF.
L'impartialité est une des clés du succès d'une
campagne d'évaluation. Pour garantir cet aspect,
l'évaluation des résultats doit être
effectuée par un partenaire qui ne participe pas à la
campagne elle-même tout en possédant un haut niveau de
technicité. Ce projet s'appuie sur le
Centre d'Expertise Parisien de la
Délégation Générale pour l'Armement
(DGA/CEP) pour assurer la partie technique de l'évaluation. La DGA
correspond aux contraintes citées précédemment: la
DGA n'est pas candidat à l'évaluation (de plus, ce n'est
pas
un concurrent des laboratoires, tant acad�miques qu'industriels) et la
DGA
dispose du savoir-faire technique indispensable. De plus, la DGA
apportera
son expérience en terme d'enregistrement et d'annotation de
corpus
ainsi qu'en terme de connaissance du contexte international
d'évaluations
(et, en particulier, des protocoles et des métriques
utilisés).
Une campagne d'évaluation n'a d'intérêt que si elle
amène un effet à long terme, garanti par la
pérennité des ressources constituées pour la
campagne ainsi que des produits dérivés de celle-ci. Le
troisième partenaire du projet, the
European Language Ressources Association
(ELRA), prend en charge cet aspect du projet ainsi que les aspects
liés à la distribution des ressources et des
métriques.
Existant
Dans le domaine de la transcription d'émissions radiophoniques,
l'existant est constitué d'une part de l'expérience
acquise lors des projets équivalents, de langue anglaise, et,
d'autre part, de ressources acoustiques, textuelles et lexicales pour
le français.
En ce qui concerne les protocoles et les métriques
d'évaluation, le projet s'appuiera autant que possible sur les
protocoles existants au sein des évaluations organisées
par DARPA et NIST, de manière à profiter de
l'expérience acquise mais également à faciliter
les comparaisons entre les campagnes d'évaluation. Ces
protocoles seront utilisés tels quels ou adaptés si
nécessaire aux besoins spécifiques du projet. En
particulier, on réutilisera les outils développés
par NIST pour évaluer les performances en reconnaissance de la
parole et en segmentation.
En matière de ressources, le projet utilisera au mieux les
ressources acoustiques, textuelles et lexicales existantes. Ces
ressources seront complétées lorsque cela est
nécessaire. Ainsi, pour les ressources acoustiques, le projet
utilisera et complètera un corpus existant comprenant environ 40
heures d'émissions, enregistrées sur Radio France
International, transcrites orthographiquement et annotées en
tour de parole. Les textes du journal Le Monde ainsi que les
transcriptions de débats parlementaires
(corpus MLCC), actuellement disponibles dans le catalogue ELDA,
serviront
de sources principales pour les ressources textuelles. Enfin, les
lexiques
phonétisés ILPHO et BDLEX seront utilisés comme
ressources
lexicales et complétés si nécessaire, afin
d'assurer
une couverture totale de l'ensemble des mots du corpus d'apprentissage.
Objectifs du projet
L'organisation d'une campagne
d'évaluation des systèmes de transcription enrichie
d'émissions radiophoniques a pour buts principaux de promouvoir
une dynamique de l'évaluation en France, autour du traitement de
la parole de langue française, de mettre en place une structure
pérenne d'évaluation et de diffuser le plus largement
possible les informations et les ressources concernées par ces
évaluations. L'axe prioritaire sera d'assurer un accès
aux évaluations à un nombre aussi large que possible de
participants.
Les résultats attendus sont bien évidemment de
mesurer objectivement et de faire progresser les performances des
systèmes de transcriptions enrichies en français, et
d'inciter la fédération des efforts de recherche dans ce
domaine.
L'objectif est également d'améliorer la visibilité
du secteur de recherche concerné, par la mise en évidence
du niveau de performance atteint par l'état de l'art, par la
constitution d'un "club" d'acteurs identifiés (et pouvant
prouver leur niveau
de compétence) et par la publicité assurée au
projet.
Par ailleurs, cette première évaluation doit permettre le
développement d'un corpus annoté
conséquent pour la
tâche visée. Ce corpus, ainsi que l'ensemble des
ressources
nécessaires à l'évaluation, seront mis à la
disposition
des chercheurs via ELRA à un coût modéré
à
l'issu de la campagne d'évaluation, permettant ainsi de
nombreuses
activités de recherche dans ce domaine.