Résumé :
Dans le cadre de la rééducation orthophonique des troubles de la parole associés à un mauvais positionnement de la langue, il peut être utile au patient et à l’orthophoniste de visualiser la position et les mouvements de cet articulateur naturellement très peu visible. L’imagerie échographique peut pallier ce manque, comme en témoignent de nombreuses études de cas menées depuis plusieurs années dans les pays anglo-saxons. Appuyés par de nombreux travaux sur les liens entre production et perception de la parole, ces études font l’hypothèse que ce retour articulatoire visuel faciliterait la rééducation du patient. Lors des séances orthophoniques, le patient semble, en effet, mieux appréhender les déplacements de sa langue, malgré la difficulté d’interprétation sous-jacente de l’image échographique liée au bruit inhérent à l’image et à l’absence de vision des autres articulateurs. Nous développons dans cette thèse le concept d’échographie linguale augmentée. Nous proposons deux approche
s afin d’améliorer l’image échographique brute, et présentons une première application clinique de ce dispositif.
La première approche porte sur le suivi du contour de la langue sur des images échographiques. Nous proposons une méthode basée sur une modélisation par apprentissage supervisé des relations entre l’intensité de l’ensemble des pixels de l’image et les coordonnées du contour de langue. Une étape de réduction de la dimension des images et des contours par analyse en composantes principales est suivie d’une étape de modélisation par réseaux de neurones. Nous déclinons des implémentations mono-locuteur et multi-locuteur de cette approche dont les performances sont évaluées en fonction de la quantité de contours manuellement annotés (données d’apprentissage). Nous obtenons pour des modèles mono-locuteur une erreur de 1,29 mm avec seulement 80 images, performance meilleure que celle de la méthode de référence EdgeTrak utilisant les contours actifs.
La deuxième approche vise l’animation automatique, à partir des images échographiques, d’une tête parlante articulatoire, c’est-à-dire l’avatar d’un locuteur de référence qui révèle les structures externes comme internes de l’appareil vocal (palais, langue, pharynx, dents, etc.). Nous construisons tout d’abord un modèle d’association entre les images échographiques et les paramètres de contrôle de la langue acquis sur ce locuteur de référence. Nous adaptons ensuite ce modèle à de nouveaux locuteurs dits locuteurs source. Pour cette adaptation, nous évaluons la technique Cascaded Gaussian Mixture Regression (C-GMR), qui s’appuie sur une modélisation conjointe des données échographiques du locuteur de référence, des paramètres de contrôle de la tête parlante, et des données échographiques d’adaptation du locuteur source. Nous comparons cette approche avec une régression directe par GMR entre données du locuteur source et paramètres de contrôle de la tête parlante. Nous montrons que l’approche par C-GMR réalise le meilleur compromis entre quantité de données d’adaptation d’une part, et qualité de la prédiction d’autre part. Enfin, nous évaluons la capacité de généralisation de l’approche C-GMR, et montrons que l’information a priori sur le locuteur de référence, exploitée par ce modèle, permet de généraliser à des configurations articulatoires du locuteur source non vues pendant la phase d’adaptation.
Enfin, nous présentons les premiers résultats d’une application clinique de l’échographie augmentée à une population de patients ayant subi une ablation du plancher de la bouche ou d’une partie de la langue. A l’aide de bilans orthophoniques classiques pratiqués entre chaque série de séances, nous évaluons l’usage du retour visuel en temps réel de la langue du patient et l’usage de séquences enregistrées préalablement sur un orthophoniste pour illustrer les articulations cibles. Les premiers résultats montrent une amélioration des performances des patients, notamment sur le placement de la langue.