Apprentissage automatique en ligne pour un dialogue homme-machine situé

Résumé :
Un système de dialogue permet de doter la Machine de la capacité d’interagir de façon naturelle et efficace avec l’Homme. Dans cette thèse nous nous intéressons au développement d’un système de dialogue reposant sur des approches statistiques, et en particulier du cadre formel des Processus Décisionnel de Markov Partiellement Observable, en anglais Partially Observable Markov Decision Process (POMDP), qui à ce jour fait office de référence dans la littérature en ce qui concerne la gestion statistique du dialogue. Ce modèle permet à la fois une prise en compte améliorée de l’incertitude inhérente au traitement des données en provenance de l’utilisateur (notamment la parole) et aussi l’optimisation automatique de la politique d’interaction à partir de données grâce à l’apprentissage par renforcement, en anglais Reinforcement Learning (RL).

Cependant, une des problématiques liées aux approches statistiques est qu’elles nécessitent le recours à une grande quantité de données d’apprentissage pour atteindre des niveaux de performances acceptables. Or, la collecte de telles données est un processus long et coûteux qui nécessite généralement, pour le cas du dialogue, la réalisation de prototypes fonctionnels avec l’intervention d’experts et/ou le développement de solution alternative comme le recours à la simulation d’utilisateurs. En effet, très peu de travaux considèrent à ce jour la possibilité d’un apprentissage de la stratégie de la Machine de part sa mise en situation de zéro (sans apprentissage préalable) face à de vrais utilisateurs. Pourtant cette solution présente un grand intérêt, elle permet par exemple d’inscrire le processus d’apprentissage comme une partie intégrante du cycle de vie d’un système lui offrant la capacité de s’adapter à de nouvelles conditions de façon dynamique et continue.

Dans cette thèse, nous nous attacherons donc à apporter des solutions visant à rendre possible ce démarrage à froid du système mais aussi, à améliorer sa capacité à s’adapter à de nouvelles conditions (extension de domaine, changement d’utilisateur, etc.).

Pour ce faire, nous envisagerons dans un premier temps l’utilisation de l’expertise du domaine (règles expertes) pour guider l’apprentissage initial de la politique d’interaction du système. De même, nous étudierons l’impact de la prise en compte de jugements subjectifs émis par l’utilisateur au fil de l’interaction dans l’apprentissage, notamment dans un contexte de changement de profil d’utilisateur où la politique préalablement apprise doit alors pouvoir s’adapter à de nouvelles conditions.
Les résultats obtenus sur une tâche de référence montrent la possibilité d’apprendre une politique (quasi-)optimale en quelques centaines d’interactions, mais aussi que les informations supplémentaires considérées dans nos propositions sont à même d’accélérer significativement l’apprentissage et d’améliorer la tolérance aux bruits dans la chaîne de traitement.

Dans un second temps nous nous intéresserons à réduire les coûts de développement d’un module de compréhension de la parole utilisé dans l’étiquetage sémantique d’un tour de dialogue.
Pour cela, nous exploiterons les récentes avancées dans les techniques de projection des mots dans des espaces vectoriels continus conservant les propriétés syntactiques et sémantiques, pour généraliser à partir des connaissances initiales limitées de la tâche pour comprendre l’utilisateur. Nous nous attacherons aussi à proposer des solutions afin d’enrichir dynamiquement cette connaissance et étudier le rapport de cette technique avec les méthodes statistiques état de l’art. Là encore nos résultats expérimentaux montrent qu’il est possible d’atteindre des performances état de l’art avec très peu de données et de raffiner ces modèles ensuite avec des retours utilisateurs dont le coût peut lui-même être optimisé.

Enfin nous aborderons un autre cadre applicatif, cette fois dans le domaine du dialogue Homme-Robot (tâche spécifique à cette thèse), dans lequel l’apprentissage et les tests du système seront faits par l’intermédiaire d’interactions avec de vrais utilisateurs. Nous profiterons de ce contexte spécifique pour étudier en quoi l’incarnation physique du système au travers du robot peut aider l’interaction et ce notamment grâce à la notion de prise de perspective. En effet, nous proposons dans cette thèse une extension de la méthode de prise de décision mise en oeuvre jusqu’alors pour être capable de prendre en compte cette information située dans le mécanisme d’apprentissage de la politique. Ainsi, nous montrons dans cette étude préliminaire que cette information peut sensiblement aider le système à réagir plus naturellement et efficacement.