L’Association Française pour l’Intelligence Artificielle (AFIA), au travers de son collège Technologies du Langage Humain (TLH), organise avec l’Association Francophone de la Communication Parlée (AFCP), une première journée commune sur le thème « Extraction de connaissances interprétables pour l’étude de la communication parlée » le lundi 11 décembre 2023 sur Avignon.
L’objectif de cette journée est de réunir chercheur.euse.s dont l’objet d’étude est la communication parlée, que ce soit du point de vue des Sciences Humaines et Sociales (SHS) ou du Traitement Automatique des Langues et de l’Intelligence Artificielle. Il s’agira au cours de cette journée d’aborder la question de l’extraction de connaissances interprétables dans le signal de parole par le biais d’approches automatiques, en particulier basées sur des apprentissages profonds, pour l’étude de la communication parlée au sens large. Ces études pourront porter sur des thématiques comme l’analyse de la parole dans le domaine de la phonétique ou de la linguistique, la caractérisation du locuteur pour des tâches de reconnaissance, de segmentation et regroupement en locuteurs, de comparaison de voix (criminalistique), l’analyse de la voix/parole pathologique, l’analyse des informations para-linguistiques (autre que le locuteur) comme la parole expressive, les émotions, les accents régionaux, etc., l’étude de comportements cognitifs autour de l’acquisition de la parole, … Côté Traitement Automatique des Langues et de l’Intelligence Artificielle, les thèmes autour des modèles auto-supervisés de représentation de la parole, de l’explicabilité des modèles, de l’évaluation de l’interprétabilité et de la pertinence des explications, des boucles interactives avec l’utilisateur, pourront également être abordés.
Cette journée sera ainsi l’occasion de montrer des approches automatiques déjà existantes d’extractions de connaissances interprétables, pour répondre aux besoins des chercheur.euse.s en SHS mais également d’exprimer, de la part de ces derniers, de nouveaux besoins.
Elle s’adresse aussi bien aux jeunes chercheur.euse.s qu’aux chercheur.euse.s plus avancé.e.s du domaine. Elle est ouverte à la présentation de travaux à différents stades d’avancement voire à la présentation de projets de recherche en voie d’être lancés.
Outre l’intervention d’un conférencier invité et la tenue d’une discussion animée en fin de session, la journée sera rythmée par des communications orales de durée variable (de 10 à 20mn) et de posters en fonction des soumissions reçues.
Co-organisation et Comité Scientifique
La journée est co-organisée par Marie Tahon et Corinne Fredouille du collège TLH de l’AFIA et Maëva Garnier et Olivier Perrotin de l’AFCP et soutenue par le comité scientifique suivant :
Au nom de l’AFCP : — Nicolas Audibert (LPP, Paris) — Jean-François Bonastre (INRIA, LIA, Avignon Université) — Philippe Boula de Mareuil (LISN, Paris Saclay) — Olivier Crouzet(LLING, Nantes) — Maëva Garnier (GIPSA-lab, Grenoble) — Damien Lolive (ENSSAT, Rennes) — Julie Mauclair (IRIT, Toulouse) — Slim Ouni (Loria, Nancy) — Olivier Perrotin (GIPSA-lab, Grenoble) | Au nom de l’AFIA/TLH — Florian Boudin (L2SN, Université de Nantes) — Davide Buscaldi (LIPN, Université Sorbonne Paris Nord) — Gaël Dias (GREYC, Université de Caen Normandie) — Emmanuelle Esperança-Rodier (LIG, Université Grenoble Alpes) — Corinne Fredouille (LIA, Avignon Université) — José Moreno (IRIT, Université Paul Sabatier) — Aurélie Névéol (LISN, Paris Saclay) — Yannick Parmentier (LORIA, Université de Lorraine) — Mathieu Roche (TETIS, CIRAD) — Marie Tahon (LIUM, Le Mans Université) |
Programme de la journée
——— 9h – 9h30 Accueil
- 9h30 – 9h45 Introduction de la journée, mots des présidents AFIA / AFCP
- 9h45 – 10h45 Conférencier invité – Yannick Estève
- 10h45 – 11h00 pause café
- 11h00 – 12h20 Session Orale 1
——— 12h30 – 13h30 : repas
- 13h45 – 15h15 Session Orale 2
- 15h15 – 15h30 pause café
- 15h15 – 16h30 Session Posters
- 16h30 – 17h Discussions / Clôture de la journée
Télécharger le livret des résumés des différentes communications orales & posters
Conférencier invité – 9h45 – 10h45 : « Représentations de la parole issues de modèles neuronaux : une étude empirique » par Yannick Estève – Laboratoire Informatique d’Avignon
Résumé : Une des raisons du succès des réseaux de neurones profonds tient à leur capacité à apprendre des représentations pertinentes des données qu’ils ont à traiter.
Historiquement, pour le traitement automatique de la parole comme pour d’autres domaines, la préparation des données, ou plus précisément le choix des caractéristiques alimentant les algorithmes d’apprentissage automatique, s’avérait être une tâche déterminante à réaliser en amont de ces apprentissages.
À l’ère de l’apprentissage profond et autosupervisé, où d’énormes quantités de données peuvent être exploitées par des capacités de calcul toujours plus importantes, nous laissons aux modèles neuronaux le soin d’apprendre par eux-mêmes ces représentations de la parole, sous forme de représentations vectorielles dans des espaces continus, parfois transformées en unités discrètes.
Dans le cadre de cet exposé, je reviendrai sur différents travaux auxquels j’ai participé ces dernières années, dont l’un des points communs est l’exploitation ou l’analyse de ces représentations de la parole : représentation vectorielle de l’apparence acoustique des mots, représentation de l’expressivité, du locuteur, du contenu linguistique, ou encore de la sémantique.
Nécessairement, ces travaux seront mis en relation avec l’état de l’art, évolutif, des domaines concernés.
Session Orale 1 – 11h00-12h20
- « Exploring the multidimensional representation of unidimensional speech acoustic parameters extracted by deep unsupervised models ». Maxime Jacquelin, Maëva Garnier, Laurent Girin, Rémy Vincent, Olivier Perrotin. Grenoble.
- « Vers une représentation automatique du rythme de la parole ». Jérôme Farinas, Corine Astesano. Toulouse.
- « Explication de la segmentation audio à l’aide d’un proxy et de la factorisation matricielle non négative ». Théo Mariotte, Antonio Almudevar, Alfonso Ortega, Marie Tahon. Le Mans, Zaragoza
- « Comment l’oreille humaine détecte-elle la somnolence ? ». Vincent P. Martin, Nathan Salin, Colleen Beaumard, Jean-Luc Rouas. Luxembourg, Bordeaux
Session Orale 2 – 13h45-15h15
- « Interprétabilité pour l’identification de locuteurs. Retour sur le projet JSALT 2023 ». Marie Tahon, Imen Ben Amor, Nicolas Dugué, Jean-François Bonastre. Le Mans, Avignon, Paris
- « A multimodal dynamical variational autoencodeur for audiovisual speech representation learning ». Samir Sadok, Simon Leglaive, Laurent Girin, Xavier Alameda-Pineda, Renaud Séguier. Paris, Grenoble
- « Interprétation d’un score d’intelligibilité dans le cadre de l’évaluation de troubles de la parole au travers d’une représentation « profonde » de la parole ». Sondes Abderrazek, Corinne Fredouille, Alain Ghio, Muriel Lalain, Christine Meunier, Virginie Woisard. Avignon, Aix-en-Provence, Toulouse
- « Self-supervised learning of the relationships between speech sounds, articulatory gestures and phonetic units ». Marc-Antoine Georges, Jean-Luc Schwartz, Thomas Hueber. Grenoble
Session Posters – 15h15-16h30
- « Le nombre de schwas détecté automatiquement est-il un indicateur de l’état de somnolence chez des patients hypersomniaques ? ». Colleen Beaumard, Vincent P. Martin, Yaru Wu, Jean-Luc Rouas, Pierre Philip. Bordeaux, Luxembourg, Caen
- « Détection et classification automatiques d’erreurs de prononciation en L2 : approche basée sur les connaissances didactiques ». Romain Contrain, Julien Pinquier, Lionel Fontan, Isabelle Ferrané. Toulouse, Montauban
- « Prédiction de la compréhensibilité de la parole d’apprenants de français ». Verdiana De Fino, Isabelle Ferrané, Lionel Fontan, Julien Pinquier. Toulouse, Montauban
- « Utilisation d’un modèle d’apprentissage auto-supervisé wav2vec 2.0 pour automatiser la détection de la nasalité en vue de caractériser les locuteurs ». Lila Kim, Cédric Gendrot. Paris
- « A closer look at latent representations of end-to-end TTS models ». Martin Lenglet, Olivier Perrotin, Gérard Bailly. Grenoble
- « Investigating the dynamics of hand and lips in French Cued Speech using attention mechanisms and CTC-based decoding ». Sanjana Sankar, Denis Beautemps, Frederic Elisei, Olivier Perrotin, Thomas Hueber. Grenoble
- « Comprendre les phénomènes permettant la gestion des tours de parole dans les contenus de médias audiovisuels ». Rémi Uro, Marie Tahon, David Doukhan, Albert Rilliard. Paris, Le Mans, Rio de Janeiro
Inscriptions
La participation à la journée est gratuite. Néanmoins, une inscription est obligatoire pour y participer.
Inscription close!
Informations pratiques
La journée se tiendra à Avignon Université – Campus Hannah Arendt (centre ville) le 11 décembre 2023 (horaire à préciser) dans l’amphithéâtre 2e07 (Bâtiment Nord / ancien bâtiment – 2e étage).
Vous trouverez des informations complémentaires pour votre venue ici.