Résumé :
Pour pouvoir envisager un accès selon le contenu dans de grandes bases de données multimédia, ces données doivent être automatiquement annotées. Dans mes activités de recherche, je m’intéresse plus particulièrement aux documents audio ou au canal audio d’un document vidéo. Un domaine de recherche central ici est la reconnaissance automatique de la parole permettant de transformer un signal en une représentation textuelle porteuse d’informations sémantiques. Cependant, le signal audio, et en particulier le signal de parole, contient d’autres informations non linguistiques (ou meta-données) telles que les hésitations, les frontières de phrases, les locuteurs, les émotions , etc. Un moteur de reconnaissance de la parole qui fournit une transcription simple (ce qui est dit) peut être complété par un moteur d’extraction de meta-données pour fournir comme résultat final une Transcription Enrichie. Ceci a pour but notamment d’améliorer la lisibilité des sorties de transcription pour un humain.
Ce concept de transcription enrichie est lié fortement à l’évolution du domaine de la reconnaissance automatique de la parole. Avant les années 90, la recherche dans le domaine s’intéressait principalement aux systèmes de dictée vocale et à la transcription d’enregistrements téléphoniques. Vers la fin des années 90, l’intérêt de la recherche s’est porté vers des données plus riches en information et de moins en moins contrôlées comme les journaux télévisés et radiodiffusés, et plus récemment les documents issus de réunions enregistrées dans des environnements perceptifs équipés de nombreux capteurs. En parallèle, les systèmes de transcription ont évolué depuis des tâches de reconnaissance à vocabulaires limités vers des tâches à très grands vocabulaires dans un contexte de dialogue interactif.
Mes activités de recherche au cours des 7 dernières années passées au CLIPS et de l’année passée comme chercheur invité au centre de recherche IBM Watson, se placent dans cette évolution, puisque j’ai essayé d’apporter une contribution à certains des enjeux, à mon sens importants, du domaine :
-j’ai d’une part abordé l’extraction de méta-données (enrichissement d’une transcription) et plus précisément l’extraction d’éléments non linguistiques tels que l’identité des locuteurs, les changements de tours de parole et les sons clés, à partir d’un flux de parole ; cette extraction d’informations non linguistiques est parfois abordée dans un contexte multimodal puisque désormais le canal audio n’est plus seul mais le plus souvent accompagné d’autres informations (vidéo et/ou texte) ; ici, les problèmes scientifiques résident dans le traitement conjoint de multiples modalités qui peuvent être asynchrones et dans le choix des outils mathématiques permettant ce traitement.
-j’ai d’autre part contribué au thème du multilinguisme, autour duquel subsistent un certain nombre de verrous, notamment en ce qui concerne la généricité des systèmes de reconnaissance automatique de la parole, et leur portabilité vers de nouvelles langues ; l’originalité de mon approche vient de la volonté d’aborder des langues mal dotées, pour lesquelles peu ou pas de corpus de données sont disponibles, ce qui nécessite des méthodologies innovantes qui vont bien au-delà du simple réapprentissage ou de l’adaptation de modèles ; je présente notamment dans ce document mes contributions à la reconnaissance automatique de la parole multilingue pour les langues vietnamienne et khmere et les travaux réalisés pendant mon séjour à IBM en traduction automatique de parole en arabe dialectal.
Dans ce document, je donne également des éléments de performance des systèmes développés qui ont souvent été confrontés au cadre expérimental qu’apportent les campagnes d’évaluation nationales ou internationales ou intégrés dans des applications liéées aux espaces perceptifs et la recherche d’information multimédia.