Systèmes de reconaissance de la parole revisités : Réseaux Bayésiens dynamiques et nouveaux paradigmes

Résumé : Dans cette thèse nous élaborons quatre composantes fondamentales d’un système de reconnaissance automatique de la parole : la modélisation acoustique, la modélisation du langage, la paramétrisation du signal acoustique et la compensation du bruit. Nous proposons des techniques nouvelles dans chacun de ces domaines, et nous apportons des perspectives novatrices. Nous traitons les […]

Approches robustes pour la vérification du locuteur par normalisation et adaptation hiérarchique.

Résumé : La vérification automatique du locuteur (VAL) consiste à authentifier l’identité d’une personne en analysant les caractéristiques de sa voix. Ses applications vont du contrôle d’accès à l’authentification d’enregistrements sonores, en passant par des tâches d’étiquetage automatique de documents audio en fonction des locuteurs. Lorsqu’ils sont utilisés en situation réelle et dans des environnements […]

La composition du CA de l’AFCP 2005-2006

Frédéric BIMBOT, IRISA/CNRS & INRIA (Rennes) e-mail Laurent BESACIER, CLIPS/GEOD (Grenoble) SECRETAIRE e-mail Jean-François BONASTRE, LIA (Avignon) e-mail Mohamed EMBARKI, Lab. de Phonétique (Montpellier) e-mail Jérôme FARINAS, IRIT (Toulouse) e-mail (suppléante : Isabelle FERRANE, IRIT (Toulouse) e-mail) Cecile FOUGERON, Lab. Phonetique et Phonologie (Paris) VICE-PRESIDENTE e-mail Alain GHIO, LPL (Aix-en-Provence ) e-mail (suppléante : Christine MEUNIER, LPL […]

Workshop ESTER

L’atelier ESTER a eu lieu à Avignon les 30 et 31 Mars 2005. Ce workshop a permis d’exposer les résultats de la seconde phase d’évaluation des systèmes de transcription d’émissions radiophoniques.

Le projet Structuration, Analyse, MOdélisation de la Video et de l’Audio à l’IRIT

Package description : This package contains a set of 6 multilingual phonetic decoders (English, German, Hindi, Japanese, Mandarin and Spanish). Each decoder was trained on the Oregon Graduate Institute-Multi Language Telephone Speech Corpus. The models are based on Hidden Model Markov. 10 Gaussians were used for each state. 12 PLP, the energy and their derivative […]

La contribution de Guig

Guillaume Gravier, chercheur CNRS à l’IRISA, maintient une page avec l’ensemble des outils qu’il a développé ou auxquels il a participé.

SPro

The Speech Signal Processing (SPro) toolkit provides the standard speech signal analysis routines. It is intended to be used as a front-end signal analysis to any automatic speech processing system and therefore work mostly in batch mode. Informations et chargement : http://www.irisa.fr/metiss/gravier/spro.html