Résumé :
Si la parole est une faculté dont l’usage nous semble parfaitement naturel, il reste toutefois beaucoup à comprendre sur la nature des représentations et des processus cognitifs qui la gouvernent. Au coeur de cette thèse se trouve la question des
interactions entre perception et action dans la production et la perception de syllabes. Nous adoptons le cadre rigoureux de la programmation bayésienne au sein duquel nous définissons mathématiquement le modèle COSMO (pour « Communicating Objects using Sensori-Motor Operations »), qui permet de formaliser les théories motrice, auditive et perceptuo-motrice de la communication parlée et de les étudier quantitativement. Cette approche conduit à un premier résultat théorique fort : nous démontrons un théorème d’indistinguabilité d’après lequel, lorsque l’on pose certaines hypothèses de conditions idéales d’apprentissage, les théories auditive et motrice font des prédictions identiques pour des tâches de perception, et sont de ce fait indistinguables. Pour s’éloigner de ces conditions, nous proposons un algorithme original d’apprentissage sensori-moteur
‘par accommodation’, qui permet de s’adapter au bain acoustique ambiant tout en développant des idiosyncrasies. Cet algorithme d’apprentissage par imitation de cibles acoustiques permet l’apprentissage de compétences motrices à partir d’entrées perceptives uniquement, avec la propriété remarquable de se focaliser sur les régions d’intérêt pour l’apprentissage. Nous utilisons des syllabes synthétisées grâce au modèle de conduit vocal VLAM pour analyser les dynamiques d’évolution des modèles appris ainsi que leur robustesse aux dégradations.