Analyse statistique à deux dimensions pour la modélisation segmentale du signal de parole: Application à la reconnaissance.

Résumé:

Les modèles de Markov cachés sont utilisées en reconnaissance automatique de la parole par la plupart des laboratoires et industriels du domaine. Ils permettent de rendre compte efficacement de la variabilité temporelle. La variabilité fréquentielle n’est représentée que par une distribution de probabilités de paramètres spectraux estimés à court terme. Nous proposons de modéliser conjointement la variabilité temporelle et fréquentielle dans le cadre du formalisme des champs Markoviens. L’étape de prétraitement consistera à obtenir une représentation temps-fréquence discrétisée du signal. On pourra ensuite déterminer un système de voisinnage et des énergies de cliques qui permettront de rechercher les orientations privilégiées de l’image. Nous envisageons une étude dans les domaines suivants: (1) estimation des paramètres d’un modèle à partir de réalisations réelles. (2) « débruitage » dans le plan temps-fréquence à partir des modèles estimés. (3) segmentation du plan temps-fréquence pour la reconnaissance de formes fortes. Des simulations utilisant un modèle de production permettront de contrôler l’influence des paramètres du processus markovien. Des modèles segmentaux de parole seraont estimés à partir d’exemples puis testés en reconnaissance de la parole continue indépendente du locuteur, ainsi qu’en vérification d’identité.