Modèles acoustiques compacts pour les systèmes embarqués

Résumé :
Depuis le lancement des téléphones portables au milieu des années 90,
leurs ventes n’ont cessé de progresser. Leur taille, comme celle de
l’ensemble des systèmes embarqués (téléphone, GPS, PDA…), a
constamment été réduite, quand, dans le même temps, le nombre de
services offerts n’a fait qu’augmenter. D’une manière générale, la
plupart des systèmes embarqués offre aujourd’hui une interface
homme-machine complexe et peu conviviale. L’intégration d’un moteur de
reconnaissance de la parole dans ces systèmes offre une voie
intéressante pour améliorer leur ergonomie.

Cette thèse s’inscrit dans le cadre de la Reconnaissance Automatique de
la Parole (RAP) intégrée dans les systèmes embarqués. Les ressources
disponibles dans ces systèmes sont nettement inférieures à celles des
ordinateurs généralement utilisés pour la RAP, tant du point de vue de
la puissance de calcul que de la quantité de mémoire. Les travaux que
nous présentons s’inscrivent dans cette problématique de la RAP en
situation de ressources réduites et plus particulièrement dans le cadre
de la réduction de la taille des modèles acoustiques.

En RAP les unités phonétiques sont, généralement, représentées par des
modèles de Markov cachés gauche-droit à trois états. Afin d’améliorer
les performances des systèmes, la tendance va vers l’utilisation de
modèles contextuels et vers l’apprentissage de GMM complexes pour la
modélisation acoustique. Cette approche nécessite une quantité de
mémoire très importante qui n’est pas en adéquation avec les ressources
disponibles dans les systèmes embarqués.

Dans ce travail, nous présentons une approche alternative dans laquelle
une seule mixture de gaussiennes (le GMM général) représente l’ensemble
de l’espace acoustique. Chaque état est ensuite estimé relativement au
GMM général par une transformation, simple et compacte. Deux techniques
sont proposées pour estimer les transformations permettant de
caractériser les fonctions de densité de probabilité des différents
états. Dans un premier temps, nous proposons de ré-estimer le poids de
chacune des composantes du GMM général avec un critère maximisant la
vraisemblance ou avec un critère discriminant. Ensuite, nous présentons
une seconde fonction de transformation combinant une transformation
linéaire et globale du GMM général (par modification des moyennes et
variances) et la ré-estimation des poids citée précédemment.