Computational Language Documentation by 2025

CLD2025 – 2020-2023
Mots clés : Documentation des langues en danger; apprentissage machine

L’équipe
  • – LPP
  • – LACITO
  • – LISN
  • – LIG
  • – Université de Francfort
  • – KIT Karlsruhe

Les objectifs

Le projet ANR CLD2025 concerne la documentation des langues en danger en tirant parti du potentiel des outils d’apprentissage automatique (tels que les réseaux neuronaux artificiels et les modèles bayésiens). Ces outils peuvent contribuer efficacement à l’exécution de tâches d’annotation linguistique, dont la transcription phonétique, la glose automatique de textes et la découverte automatique de mots.

Ce projet franco-allemand réunit des spécialistes en linguistique de l’oral
(LACITO, LPP-P3, Univ. Francfort) et en traitement automatique des langues et de la parole (LIG Grenoble, LISN Saclay, KIT Karlsruhe).

Nous proposons dans le projet CLD2025 de reformuler la documentation des langues en tant que recherche interdisciplinaire où la linguistique de terrain fait appel à l’apprentissage automatique.  Le projet repose sur une approche empirique où les corpus existants de langues en danger sont enrichis et traités automatiquement pour fournir une assistance automatisée de nature totalement innovante à un linguiste de terrain. Nous explorons de nouvelles façons d’enrichir les données, telles que les données multimédia (images, vidéos), l’annotation par crowdsourcing, etc.  L’une des principales applications sera de développer/accélérer la production de gloses interlinéaires écrites et orales, pour différents types de langues source et de traduction. Nous utiliserons les corpus existants (oraux et écrits) disponibles dans le consortium. L’un des impacts du projet sera l’amélioration de l’efficacité des méthodes de documentation des langues en danger afin de faire face à leur extinction rapide.


Liens externes

https://anr.fr/Project-ANR-19-CE38-0015
https://lpp.in2p3.fr/la-recherche/projets-contrats/cld2025/

afcp