Résumé :
Cette thèse est dédiée à la modélisation conjointe des modalités audio et vidéo de la parole et à son exploitation pour la séparation de sources. Tout d’abord, une modélisation probabiliste bimodale de la parole audiovisuelle à base de mélange de noyaux est proposée. Cette modélisation est ensuite exploitée pour la détection des silences. De plus, nous proposons une détection purement visuelle des silences en s’appuyant sur l’observation des lèvres du locuteur. Ce dernier procédé présente l’avantage d’être indépendant d’un bruit acoustique. Ces deux modélisations sont ensuite exploitées pour la séparation de mélanges convolutifs de sources audiovisuelles. Nous résolvons ainsi le problème classique des indéterminations des méthodes de séparation dans le domaine fréquentiel avant de proposer une méthode géométrique qui utilise les périodes de silence de la source d’intérêt. Les algorithmes proposés sont validés par des expériences sur des corpus multi-locuteurs et multi-langues.