Tutoriel TALN

Traduction de la parole

vendredi 13 juin 2008

Intervenant : Holger Schwenk, Professeur en informatique au LIUM, Université du Maine

La traduction de textes est un domaine scientifique établi et différentes approches ont été proposées, plusieurs produits commerciaux sont disponibles, et des services de traduction de pages HTML sont proposés sur internet. L'amélioration des méthodes utilisées, conjointement avec l'augmentation de la puissance de calcul des ordinateurs, permet aujourd'hui d'envisager la traduction de la parole.

Le but de ce tutoriel est de décrire de façon détaillée les techniques utilisées. Pour cela le tutoriel est organisé en deux parties : une description de l'approche statistique à la traduction automatique et une discussion des spécificités de la traduction de la parole.

La traduction de la parole peut se traiter par l'enchaînement d'un module de reconnaissance et d'un module de traduction, qui ont été tous les deux développés de façon indépendante. D'autre part, des interactions plus étroites peuvent être envisagées. Premièrement, le système de reconnaissance pourrait proposer plusieurs solutions alternatives dont le module de traduction choisira celle qui se traduit le mieux. Cette sélection peut profiter de divers scores de qualité du module de reconnaissance, par exemple le score du modèle acoustique ou du modèle de langage de la langue source, voir des méta-informations comme la prosodie de la phrase prononcée. Finalement, la traduction de la parole peut être vue comme un processus global qui passe directement du signal audio en langue source au texte dans la langue cible, sans produire un texte intermédiaire dans la langue source.

Ces différentes techniques seront détaillées dans le tutoriel.