Reconnaissance automatique de la parole continue : compensation des bruits par transformation de la parole

Résumé :

Les performances d’un système de reconnaissance automatique de la parole (SRAP) subissent de lourdes dégradations lorsqu’il est utilisé dans un milieu acoustique (de test) qui diffère de son milieu d’entraînement.
La différence entre ces deux milieux est, la plupart du temps, provoquée par des sources de bruits qui interagissent avec signal de parole de test.
Ces sources évoluent au cours du temps et parfois rapidement à l’échelle d’une phrase.
De plus, très peu d’informations sont disponibles quant à leur nature, ce qui rend la modélisation de cette interaction très difficile.

Plusieurs techniques ont été proposées afin d’améliorer d’améliorer la reconnaissance de la parole dans le bruit.
Ces techniques sont généralement regroupés en trois grandes catégories.
Dans une première catégorie, on trouve les méthodes qui visent à rendre l’étape de codage de la parole précéde la reconnaissance moins sensible aux sources de bruit.
Dans une seconde catégorie, des modèles du bruit ambiant et du canal de transmission sont estimés et incorporés dans le processus de reconnaissance.
Enfin, dans une troisième catégorie, les méthodes dites de compensation modifient les vecteurs de la parole (observations) afin de les rendre plus semblables aux vecteurs utilisés pour l’entraînement des modèles acoustiques.

Les algorithmes développés lors de mes recherches appartiennent à cette dernière catégorie.
Plus précisément, ils peuvent être associés au paradigme du Stochastic Matching (SM) exposé ci-après.

Les principes fondamentaux du SM ont été exposés par Sankar et Lee en 1996.
Cette approche s’utilise dans le cas ou le système de reconnaissance est probabiliste et utilise des Modèles de Markov Cachés (Hidden Markov Models, HMM) comme modèles acoustiques (MA).
Dans leurs travaux, les paramètres d’une fonction de compensation sont estimés afin de maximiser la vraisemblance d’une séquence de parole en fonction de l’ensemble des MA.
Ces paramètres sont obtenus à l’issue de plusieurs étapes d’Estimation-Maximisation pour lesquels il est nécessaire de connaître la séquence optimale des MA traduisant la séquence de vecteurs de parole observée.
L’aspect le plus intéressant du SM est qu’il ne nécessite, à première vue, aucune information sur la nature ou le niveau de bruit ambiant.
En effet, il est possible d’effectuer le débruitage d’une phrase de test sans disposer d’autres informations a priori.

D’autre part, les méthodes de compensation peuvent se diviser en deux sous-ensembles: les algorithmes peuvent être temps-reél ou en temps-différé.
Les algorithmes temps-réel, ou synchrones à la trame, sont particulièrement intéressant lorsqu’il s’agit de contrer l’influence d’une source de bruit lentement variable.
Des algorithmes temps-différé permettraient d’obtenir un résultat similaire pour de tels sources de bruit mais les calculs qu’ils impliquent rendent leur utilisation incompatible avec une implémentation dans un SRAP de la vie courante (SRAP embarqué dans une voiture par exemple).
Les techniques développées lors de mes recherches sont totalement synchrones à la trame: les paramètres de la fonction de compensation sont réactualisés à l’arrivée de chaque observation acoustique, en parallèle avec le processus de reconnaissance.


Un algorithme de compensation temps-réel

Un algorithme de compensation utilisant le cadre formel du SM tout en étant synchrone à la trame soulève un problème ardu.
Particulièrement, dans ce cas, les statistiques (probabilités forward-backward) nécessaires dans la méthode SM exposée plus haut, ne sont pas disponibles au moment de compenser une trame de parole.
En effet, à ce moment, toute la séquence de parole n’a pas encore été observée, or ces statistiques sont fournies par la séquence optimale des MA sur la séquence complète des observations.
Afin de se départir de cet écueil, nous avons envisagé d’approximer ces statistiques manquantes par les seul disponibles lors de la compensation: les probabilités forward.

L’idée sous-jacente peut se décrire comme suit.
Tout d’abord, on pose l’hypothèse qu’à chaque instant t au cours de l’alignement de Viterbi (processus reconnaissance consistant à l’acumulation des probabilités forward), le MA le plus probable au sens de la probabilité forward est effectivement le modèle de l’unité phonétique à laquelle appartient la trame de parole de l’instant t.
Il est alors possible d’estimer, à l’aide de cette approximation, les paramètres d’une fonction de compensation affine permettant de compenser la trame de parole de l’instant t+1.
Ces paramètres sont réactualisés à chaque trame.
De plus, ces paramètres étant obtenus de façon incrémentale, leur estimation sera d’autant plus fine que le nombre d’observations émises de façon consécutive dans un même environnement acoustique sera important.
Par conséquent, cet algorithme en-ligne effectue une compensation en parallèle avec le processus de reconnaissance et ne nécessite pas de connaissance a priori sur la nature du bruit.

Les algorithmes que nous avons développés dans ce cadre donnent des résultats supérieurs à ceux obtenus par les algorithmes classiques de compensation synchrone à la trame (comme la normalisation cepstrale ou la soustraction spectrale).
Par exemple, la première version de notre algorithme a obtenu un taux de reconnaissance en mot supérieur de 15.5% à la soustraction spectrale, sur les données de la base VODIS.
Cette base VODIS (Voice-Operated Driver Information System) a été enregistrée, en français, dans une voiture roulant à différentes allures par 200 locuteurs.
Sur cette même base, on obtient un taux de reconnaissance en mot supérieur de 27.8% par rapport à la normalisation cepstrale.


Une fonction de compensation hiérarchique

Afin d’améliorer les résultats obtenus par la méthode présentée ci-dessus, nous avons proposé une fonction de compensation adoptant la forme d’un arbre binaire de transformations.

Cette approche est motivée par plusieurs constatations.
Tout d’abord, il est reconnu que des vecteurs de parole similaires sont affectés de la même façon si ils sont émis dans le même environnement acoustique.
Par conséquent, un ensemble de fonctions de compensation spécifiques à des sous ensembles de l’espace d’observation doit donner de meilleurs résultats qu’une seule et unique fonction de compensation couvrant tout l’ensemble des vecteurs de parole.
Par exemple, dans un même environnement acoustique, deux voyelles seront affectés d’une certaine façon alors qu’une consonne le sera d’une autre.

Cependant, une fonction de compensation semblable à celle que nous avons proposé, mais spécifique à un sous ensemble acoustique, rencontre un problème majeur: si la phrase à compenser comporte très peu d’observations dans un de ces sous ensembles, la transformation associée à ce sous ensemble sera mal estimée.
Pour contourner ce problème, nous organisons l’ensemble des fonctions spécifiques aux sous ensembles de façon hiérarchique.

Ainsi, lorsqu’une observation doit être compensée, on pourra utiliser la transformation associée au plus petit sous ensemble acoustique contenant cette observation (un noeud de l’arbre) ou, si cette dernière n’est pas bien estimée, la transformation associé à l’ensemble acoustique qui le contient (le noeud père).


Un environnement acoustique variant abruptement

Dans un deuxième temps, nous avons voulu explorer la possibilité, pour notre algorithme, d’être efficace dans le cas où l’environnement acoustique varie abruptement.
En effet, lors d’une utilisation réelle, un SRAP peut avoir affaire à une variation rapide dans l’environnement d’exécution, comme par exemple l’ouverture intempestive d’une fenêtre de l’habitacle d’une voiture.
Dans ce cas, il est évident qu’on ne dispose d’aucune information sur le nature du bruit ni le moment de son apparition.
Pourtant, un algorithme de compensation devrait identifier et prendre en considération ces changements dans un petit intervalle de temps.

Dans cette optique, deux problèmes doivent être explorés: celui de la détection des changements dans l’environnement acoustique et celui de la stratégie de compensation à adopter dans le cas d’un changement.
Cette étude nous a permis d’améliorer notre algorithme de base afin de débruiter dans un milieu particulièrement difficile, variant rapidement et fréquemment.
A chaque trame de temps, la distance entre le vecteur de parole observé et le MA le plus probable au sens de la probabilité forward est calculé.
Lorsqu’un changement abrupt se produit dans l’espace acoustique de test, la valeur de cette distance varie rapidement.
Nous détectons cette brusque variation par l’intermédiaire de trois algorithmes de suivi tels que celui de Shewart, le critère d’information bayesien (BIC) et une adaptation de la fonction de variation spectrale (SVF).
Lorsque le début d’un nouvel environnement acoustique est détecté, les paramètres de notre fonction de compensation sont réinitialisés à des valeurs obtenues dans l’environnement déjà observé le plus proche.

Cette approche donne des améliorations très significatives en comparaison avec les méthodes de compensation classiques, pour des tests conduits sur des données artificiellement bruités (un bruit est ajouté au signal de parole propre à partir du milieu de chaque phrase de test).
Enfin, nous avons obtenu une amélioration de 32.4% en reconnaissance de phonème par rapport à un système de reconnaissance n’intégrant pas de système de compensation.