Campagne d'évaluation ESTER

Vous trouverez ci-dessous une présentation générale de la campagne ESTER (Phase I et II) telle que proposée initialement dans le cadre du projet EVALDA.

Contexte

Aux Etats-Unis, le DARPA, relayé par NIST, a organisé une évaluation annuelle des systèmes de transcription d'émissions (HUB-4 Broadcast News ) de 1996 à 1999. L'intégration d'informations annexes, pour enrichir la transcription, est apparue plus récemment avec les campagnes annuelles d'extraction automatique de contenu (Automatic Content Extraction, 1999-2002) qui incluent une détection des entités nommées dans les transcriptions automatiques d'émissions, les campagnes annuelles de détection de thème (Topic Detection and Tracking, 1998-2002) et, plus récemment, la campagne pour les transcriptions enrichies (Rich Transcription, 2002-2003) dont le but est d'enrichir la transcription avec des informations concernant le locuteur. Le NIST a également organisé des campagnes concernant la vérification du locuteur et la segmentation selon le locuteur depuis 1996.

Ces campagnes ont connu un succès marqué, par le nombre et la qualité des participants, et par le nombre de publications; elles ont également permis de dynamiser les recherches dans le domaine du traitement du langage parlé, en mettant à la disposition des chercheurs des ressources indispensables (corpus, instruments de mesure des performances.) mais également en favorisant les interactions entre les acteurs du domaine. Cependant, les effets de ces campagnes se sont faits sentir essentiellement outre-atlantique, pour des raisons évidentes de proximité et de langue (les ressources proposées portent essentiellement sur l'anglais).

Aucune campagne d'évaluation n'a été organisée au niveau européen. En revanche, le projet THISL (Thematic Indexing of Spoken Language) a favorisé le développement de la recherche autour de l'indexation de documents audio.

En France, une première campagne d''evaluation a été organisée en 1997 dans le cadre des ARC (B1) de l'AUF, portant sur la reconnaissance de parole lue (journalistique). La transcription d'émissions radiophoniques avait été envisagée lors de la préparation d'une deuxième campagne d'évaluation, comme une suite logique. Bien que cette deuxième campagne n'ait pas abouti, les réunions de préparations ont clairement montré l'intérêt des laboratoires à travailler sur la transcription enrichie d'émissions en langue française. L'organisation d'une telle évaluation permettrait de fédérer les efforts de recherche des laboratoires français et francophones dans ce domaine, de favoriser le développement du traitement automatique de la langue française et de dresser un panorama des acteurs académiques et industriels comme de l'état de l'art.

Acteurs

L'Association Francophone de la Communication Parlée (AFCP) est une association (loi 1901) de type société savante dont le but est d'animer et de promouvoir la communauté scientifique dans le domaine de la communication parlée. Le projet proposé, l'organisation d'une campagne d'évaluation dans ce domaine, est donc en parfait accord avec les missions de l'AFCP, la campagne elle-même permettant d'animer la communauté scientifique tandis que la valorisation des résultats de la campagne assure la promotion de la communauté. De plus, le conseil d'administration de l'association regroupe des représentants de la plupart des laboratoires français du domaine dont un certain nombre ayant déjà l'expérience des évaluations en reconnaissance de la parole menées dans le cadre des ARC de l'AUF.

L'impartialité est une des clés du succès d'une campagne d'évaluation. Pour garantir cet aspect, l'évaluation des résultats doit être effectuée par un partenaire qui ne participe pas à la campagne elle-même tout en possédant un haut niveau de technicité. Ce projet s'appuie sur le Centre d'Expertise Parisien de la Délégation Générale pour l'Armement (DGA/CEP) pour assurer la partie technique de l'évaluation. La DGA correspond aux contraintes citées précédemment: la DGA n'est pas candidat à l'évaluation (de plus, ce n'est pas un concurrent des laboratoires, tant acad�miques qu'industriels) et la DGA dispose du savoir-faire technique indispensable. De plus, la DGA apportera son expérience en terme d'enregistrement et d'annotation de corpus ainsi qu'en terme de connaissance du contexte international d'évaluations (et, en particulier, des protocoles et des métriques utilisés).

Une campagne d'évaluation n'a d'intérêt que si elle amène un effet à long terme, garanti par la pérennité des ressources constituées pour la campagne ainsi que des produits dérivés de celle-ci. Le troisième partenaire du projet, the European Language Ressources Association (ELRA), prend en charge cet aspect du projet ainsi que les aspects liés à la distribution des ressources et des métriques.

Existant

Dans le domaine de la transcription d'émissions radiophoniques, l'existant est constitué d'une part de l'expérience acquise lors des projets équivalents, de langue anglaise, et, d'autre part, de ressources acoustiques, textuelles et lexicales pour le français.

En ce qui concerne les protocoles et les métriques d'évaluation, le projet s'appuiera autant que possible sur les protocoles existants au sein des évaluations organisées par DARPA et NIST, de manière à profiter de l'expérience acquise mais également à faciliter les comparaisons entre les campagnes d'évaluation. Ces protocoles seront utilisés tels quels ou adaptés si nécessaire aux besoins spécifiques du projet. En particulier, on réutilisera les outils développés par NIST pour évaluer les performances en reconnaissance de la parole et en segmentation.

En matière de ressources, le projet utilisera au mieux les ressources acoustiques, textuelles et lexicales existantes. Ces ressources seront complétées lorsque cela est nécessaire. Ainsi, pour les ressources acoustiques, le projet utilisera et complètera un corpus existant comprenant environ 40 heures d'émissions, enregistrées sur Radio France International, transcrites orthographiquement et annotées en tour de parole. Les textes du journal Le Monde ainsi que les transcriptions de débats parlementaires (corpus MLCC), actuellement disponibles dans le catalogue ELDA, serviront de sources principales pour les ressources textuelles. Enfin, les lexiques phonétisés ILPHO et BDLEX seront utilisés comme ressources lexicales et complétés si nécessaire, afin d'assurer une couverture totale de l'ensemble des mots du corpus d'apprentissage.

Objectifs du projet

L'organisation d'une campagne d'évaluation des systèmes de transcription enrichie d'émissions radiophoniques a pour buts principaux de promouvoir une dynamique de l'évaluation en France, autour du traitement de la parole de langue française, de mettre en place une structure pérenne d'évaluation et de diffuser le plus largement possible les informations et les ressources concernées par ces évaluations. L'axe prioritaire sera d'assurer un accès aux évaluations à un nombre aussi large que possible de participants.

Les résultats attendus sont bien évidemment de mesurer objectivement et de faire progresser les performances des systèmes de transcriptions enrichies en français, et d'inciter la fédération des efforts de recherche dans ce domaine.

L'objectif est également d'améliorer la visibilité du secteur de recherche concerné, par la mise en évidence du niveau de performance atteint par l'état de l'art, par la constitution d'un "club" d'acteurs identifiés (et pouvant prouver leur niveau de compétence) et par la publicité assurée au projet.

Par ailleurs, cette première évaluation doit permettre le développement d'un corpus annoté conséquent pour la tâche visée. Ce corpus, ainsi que l'ensemble des ressources nécessaires à l'évaluation, seront mis à la disposition des chercheurs via ELRA à un coût modéré à l'issu de la campagne d'évaluation, permettant ainsi de nombreuses activités de recherche dans ce domaine.

Présentation du projet EVALDA / ESTER

Contexte

Acteurs

Existant

Objectifs du projet