Des données aux systèmes : Étude des liens entre données d’apprentissage et biais de performance genrés dans les systèmes de reconnaissance automatique de la parole

Certains systèmes issus de l’apprentissage machine, de par leurs données et les impensés qu’ils encapsulent, contribuent à reproduire des inégalités sociales, alimentant un discours sur les « biais de l’intelligence artificielle ». Ce travail de thèse se propose de contribuer à la réflexion collective sur les biais des systèmes automatiques en questionnant l’existence de biais de genre dans les systèmes de reconnaissance automatique de la parole ou ASR (pour Automatic Speech Recognition). Penser l’impact des systèmes nécessite une articulation entre les notions de biais (ayant trait à la constitution du système et de ses données) et de discrimination, définie au niveau de la législation de chaque pays. On considère un système comme discriminatoire lorsqu’il effectue une différence de traitement sur la base de critères considérés comme brisant le contrat social. En France, le sexe et l’identité de genre font partie des 23 critères protégés par la législation. Après une réflexion théorique autour des notions de biais, et notamment sur le biais de prédictif (ou biais de performance) et le biais de sélection, nous proposons un ensemble d’expériences pour tenter de comprendre les liens entre biais de sélection dans les données d’apprentissage et biais prédictif du système. Nous nous basons sur l’étude d’un système HMM-DNN appris sur des corpus médiatiques francophones, et d’un système end-to-end appris sur des livres audio en anglais. Nous observons ainsi qu’un biais de sélection du genre important dans les données d’apprentissage contribue de façon assez partielle au biais prédictif du système d’ASR, mais que ce dernier émerge néanmoins lorsque les données de parole regroupent des situations d’énonciation et des rôles de locuteurs et locutrices différents. Ce travail nous a également conduite à questionner la représentation des femmes dans les données, et plus généralement à repenser les liens entre conception théorique du genre et systèmes d’ASR.