À travers ces travaux de thèse, nous cherchons à perfectionner les transcriptions phonétiques de lectures orales d’enfants apprenants lecteurs réalisées en environnement scolaire. Ces transcriptions automatiques forment la base d’un système de détection d’erreurs utilisé dans un exercice de lecture orale de la plateforme pédagogique Lalilo. Une bonne précision est primordiale pour fournir un retour adapté à l’enfant, et ainsi favoriser son apprentissage. Une première partie présente les principaux défis de notre tâche. La reconnaissance automatique de la parole d’enfants est plus ardue que celle d’adultes, en raison de ses très grandes variabilités acoustique et prosodique. La rareté des données disponibles, notamment en français, nous oblige de plus à redoubler d’inventivité pour en modéliser correctement la variabilité. Enfin, de fréquentes occurrences d’erreurs de fluence et de déchiffrage, ainsi que la présence de bruit de brouhaha typique des salles de classe, constituent des difficultés supplémentaires. Nous construisons dans une seconde partie un modèle acoustique hybride TDNNF-HMM, qui deviendra notre modèle de référence. Son entraînement via un apprentissage par transfert permet de pallier au manque de données et d’atteindre un PER de 30,1%. Nous étudions différents paramètres acoustiques et méthodes de normalisation, visant à maximiser la performance de notre modèle. Une technique d’augmentation de données par ajout de bruit, visant à améliorer la robustesse du modèle aux bruits de salle de classe, apporte également une amélioration relative du PER de 6,4%. Dans notre dernière partie, nous explorons les architectures récentes end-to-end fondées sur des réseaux RNN, des modules CTC et des mécanismes d’attention. Notre travail est l’un des premiers à appliquer des architectures end-to-end sur de la parole d’enfants, et à analyser leurs forces et faiblesses quant aux spécificités de la lecture orale d’apprenants lecteurs. Notre système Transformer+CTC fournit les meilleurs résultats (PER de 25,0%) grâce à la pertinence des informations acoustiques et textuelles extraites par ses mécanismes d’auto-attention et à la complémentarité des modules CTC et d’attention. Notre système est ensuite enrichi de techniques d’augmentation de données. Nous introduisons notamment une méthode novatrice de simulation d’erreurs de lecture, afin d’entraîner le modèle à mieux les détecter. Celle-ci s’avère complémentaire à l’augmentation par ajout de bruit étudiée en deuxième partie. Ces deux techniques permettent alors au Transformer+CTC de surpasser largement le modèle hybride de référence, avec un PER de 21,2%, et d’améliorer la qualité de ses transcriptions sur de la lecture incorrecte ou en présence de bruit de brouhaha. Mots clés : reconnaissance automatique de phones, parole d’enfant, modélisation acoustique end-to-end, peu de données, erreurs de lecture, bruit de brouhaha