L’utilisation d’enregistreurs légers portés par les enfants et collectant du son tout au long de la journée ouvre la voie à une approche de ‘données massives’ pour étudier le développement du langage chez l’enfant. En recueillant la production langagière de l’enfant ainsi que son environnement linguistique, ces enregistrements nous offrent une vision réaliste des usages quotidiens du langage. Cependant, de tels enregistrements constituent rapidement des milliers d’heures d’audio et nécessitent l’utilisation d’outils de traitement automatique de la parole. En plus de fournir des mesures réalistes de ce que les enfants entendent et disent, ces enregistrements peuvent alimenter les modèles computationnels d’acquisition du langage avec une entrée comparable à ce que les enfants entendent réellement, ouvrant ainsi de nouvelles perspectives pour simuler l’apprentissage du langage. Un premier aspect de mon travail doctoral concerne le développement d’outils de traitement automatique de la parole compatibles avec ces enregistreurs portés par l’enfant. Cette thèse commence par une étude montrant que les outils à la pointe de la reconnaissance automatique de la parole ne parviennent pas à transcrire la parole enregistrée dans des conditions bruitées et non contrôlées. À travers une brève analyse technique et scientifique, j’introduis le logiciel propriétaire LENA, devenu l’outil standard pour l’analyse automatique de ces enregistrements. Je présente nos efforts pour en proposer une version libre, gratuite et plus performante. En collaboration avec d’autres chercheurs, j’ai contribué à développer une série d’outils de traitement automatique de la parole pour détecter l’activité vocale, identifier les sources de signaux vocaux (vocalisations de l’enfant, paroles d’une femme ou d’un homme adulte), compter le nombre d’unités linguistiques (phonèmes, syllabes, mots), et estimer la quantité de bruit et de réverbération. Un second aspect de mon travail doctoral concerne la modélisation de l’acquisition du langage. Je présente une première étude montrant qu’un algorithme d’apprentissage auto-supervisé entraîné sur des livres audio est capable d’apprendre des aspects phonétiques et lexicaux de sa langue d’entraînement. En revanche, lorsque ce même algorithme est exposé à ce que les enfants entendent réellement, l’implémentation de biais inductifs qui visent à contraindre l’apprentissage est nécessaire pour observer une acquisition de ces mêmes aspects phonétiques. À partir de ce constat, nous réfléchissons à la possibilité que de tels biais inductifs puissent guider l’apprentissage chez les enfants. Il est surprenant de constater que notre algorithme est incapable d’apprendre les aspects lexicaux de sa langue d’entraînement lorsqu’il est exposé à la parole que reçoivent les enfants, contrairement à ce qu’a montré la littérature sur des données moins bruitées. Cette série d’études illustre l’importance d’utiliser des données d’entrée réalistes lors de la modélisation de l’acquisition du langage.