Résumé:
Les modèles de Markov cachés sont à l’origine de la majorité des avancées récentes en reconnaissance de la parole continue. Ces modèles gèrent les distorsions temporelles du signal de parole en s’appuyant sur des densités de probabilité pour modéliser les distorsions en fréquence. Nous proposons d’améliorer leur performance à l’aide de l’estimateur de densité de probabilité des K plus proches voisins. Cet estimateur a une erreur d’ estimation faible, proche de l’erreur optimale, et est discriminant par construction.
L’estimateur des K plus proches voisins est évalué comme opérateur de reconnaissance statique de spectres à court-terme de parole. Ses performances se révèlent supérieures à celles de l’estimateur de l’état de l ‘art à base de sommes pondérées de gaussiennes. Les adaptations nécessaires à son intégration dans un système de reconnaissance markovien sont ensuite développées. Un protocole d’apprentissage optimal est développé à partir d’ une version de l’algorithme EM dont nous montrons la convergence selon le critère du maximum de vraisemblance.
Cette étude a abouti à la construction d’un système markovien K plus proches voisins qui est évalué sur la base de données TIMIT. Ses performances sont comparées à celles d’un système markovien fondé sur l’estimateur gaussien. Deux approches permettant un apport de connaissance dans le système sont finalement traitées : l’introduction d’une information temporelle dans l’ espace de représentation et l’adaptation des références.
Les performances du système markovien K plus proches voisins sont encourageantes. Des recherches complémentaires devront être menées afin de les élever au niveau de l’état de l’art. L’estimateur des K plus proches voisins présente en outre l’intérêt d’offrir une alternative à l’estimateur de l’état de l’art permettant ainsi, par comparaison, de mieux mettre en évidence l’influence réelle de l’estimateur de probabilité dans les systèmes de reconnaissance markoviens.