Apprentissage de représentation en continu pour la langue écrite et parlée - Association Francophone de la Communication Parlée

Bien que l’apprentissage automatique ait récemment connu des avancées majeures, les modèles actuels sont le plus souvent entraînés une fois pour toutes sur une tâche cible, puis déployés dans l’environnement de production, et leurs paramètres sont rarement (voire jamais) révisés. Cette approche affecte les performances dans le nouvel environnement, car les données et les spécifications de la tâche peuvent évoluer avec le temps et les besoins des utilisateurs. L’apprentissage continu propose une solution en entraînant des modèles au fil du temps, à mesure que de nouvelles données sont disponibles. Cependant, il souffre d’un phénomène appelé « oubli catastrophique », qui dénote une perte de performance significative sur des exemples déjà vus. De nombreuses études ont proposé différentes stratégies pour contrer ce phénomène, mais la plupart des algorithmes reposent sur des données étiquetées rarement disponibles en pratique. En revanche, l’adaptation continue d’un modèle pré-entraîné en production, où les données sont généralement non étiquetées et acquises au fil du temps, est un problème moins étudié. Dans cette thèse, nous étudions l’adaptation continue pour les applications de traitement de la langue écrite et parlée. Notre objectif principal est de concevoir des systèmes autonomes et auto-apprenants capables d’exploiter les données disponibles sur le terrain, afin de s’adapter aux environnements de production. Pour ce faire, nous proposons d’exploiter des représentations adaptées à la tâche cible. Cela contraste fortement avec les travaux récents sur le pré-entraînement auto-supervisé, dont l’objectif est d’apprendre des représentations à usage général telles que les plongements lexicaux. Nous pensons que les représentations adaptées à la tâche sont plus faciles à interpréter et à manipuler par des algorithmes non supervisés comme le partitionnement (ou « clustering » en anglais), qui sont moins affectés par l’oubli. Nous étudions d’abord l’apprentissage de ces représentations pour les tâches à ensemble ouvert (pour la généralisation à de nouvelles classes) et les tâches à ensemble fermé (pour la généralisation à de nouvelles instances des mêmes classes d’apprentissage). Nous concluons que cette approche est mieux adaptée aux tâches à ensemble ouvert, ce qui oriente nos recherches ultérieures dans deux directions. D’une part, nous cherchons à mieux comprendre le transfert dans des scénarios à ensemble fermé en étudiant l’adaptation supervisé et en continu des plongements lexicaux contextuelles à de nouvelles langues, dans des tâches d’étiquetage de séquences. Bien que l’oubli soit présent, nous découvrons qu’il existe un niveau élevé de transfert en avant~: des langues passées vers les langues futures. D’autre part, nous étudions l’utilisation des représentations du locuteur pour la segmentation et le regroupement en locuteurs en flux, visant à déterminer « qui parle quand » dans une conversation. Ce problème est non supervisé et à ensemble ouvert, car de nouveaux locuteurs peuvent apparaître à tout moment. Dans ce contexte, s’appuyer sur le partitionnement des représentations nous permet de concevoir un système entièrement autonome et auto-apprenant qui ne nécessite que peu ou pas d’intervention humaine experte. Puisque ce système repose sur un modèle pré-entraîné, nous proposons également une méthode d’adaptation au domaine en continu, avec laquelle il peut être progressivement adapté aux nouvelles conversations du domaine cible. Dans l’ensemble, nous pensons que notre travail, effectué dans une variété de scénarios liés à la langue, constitue un pas important vers l’apprentissage autonome en continu dans la phase de production. En particulier, nous améliorons notre compréhension du transfert en avant et ouvrons la discussion sur l’utilisation de représentations spécifiques à une tâche cible en montrant leur efficacité dans la segmentation et regroupement en locuteurs en flux.