Bonjour,
Bienvenue sur " PAROLE ", le lien de la Communauté Francophone de la Communication Parlée. Elle est gérée par l'Association Francophone de la Communication Parlée (AFCP) et a pour but de permettre la circulation d'informations importantes relatives à notre communauté. Vous pouvez donc m'envoyer vos " Nouvelles Brèves " (annonces de conférences, séminaires, thèses, appels d'offres, offres d'emploiŠ) en vue de la prochaine édition (mi janvier 2003).

Par ailleurs, permettez-moi de vous annoncer que les prochaines Journées d'Etudes sur la Parole (JEP 2004) seront confiées au Laboratoire Parole et Langage - LPL, de l'Université de Provence, pour une co-organisation avec TALN, à Fès (MAROC).

Toutes les informations concernant ces JEP seront tres prochainement disponibles sur le site de l'Association (www.afcp-parole.org).!!!

****************************************************************

SOMMAIRE

* A. Communiqué de l'AFCP1 du 3 Décembre 2002 concernant
l'identification des individus par leur voix

* B. Dépouillement du vote pour le CA de l'AFCP

* C. Nos thèses : passées et futuresŠ

* D. Vient de paraître !!!

****************************************************************

A. Communiqué de l'AFCP1 du 3 Décembre 2002 concernant
l'identification des individus par leur voix

Association Francophone de la Communication Parlée
Siège social : Université d'Avignon
339 chemin des Meinajaries - BP 1228
84911 AVIGNON CEDEX 9
SIRET : 440 910 354 00016 - APE/NAF : 913 - Tel : (+33/0) 4 90 84 35 00 - Fax : (+33/0) 4 90 84 35 01
E-mail : secretariat-afcp@afcp-parole.org - Web : http://www.afcp-parole.org
Réf : LE-2002-5
Communiqué de l'AFCP1 du 3 Décembre 2002 concernant
l'identification des individus par leur voix
L'actualité récente amène l'Association Francophone de la Communication Parlée (AFCP) à réaffirmer la position collective de la communauté scientifique francophone sur la question de l'identification vocale des individus.

Un nécessaire devoir de précaution
Les scientifiques francophones spécialistes de l'étude de la voix, représentés initialement par le Groupe Francophone
de la Communication Parlée, puis depuis 2001 par l'Association Francophone de la Communication Parlée (AFCP),
tentent depuis plusieurs années d'attirer l'attention des pouvoirs publics, des magistrats, des médias et des citoyens
sur les limites scientifiques et technologiques des techniques et des procédés d'identification des individus par leur
voix (authentification vocale). Cette position a donné lieu à plusieurs textes [1,2] et articles scientifiques [3, 4] ainsi
qu'à plusieurs interventions auprès des tribunaux. Ce communiqué vise à réaffirmer et à diffuser cette prise de
position.
« Empreintes vocales », un terme inadapté
Le terme « d'empreintes vocales » fréquemment utilisé dans le langage courant et dans les ¦uvres de fiction donne à
croire que la voix présente des caractéristiques tout aussi fiables que celles des empreintes digitales ou génétiques : il
n'en est rien ! A ce jour, les recherches scientifiques ne permettent pas de dire que la voix possède des
caractéristiques permettant d'identifier de façon unique chaque être humain.
La voix n'est pas une empreinte digitale ou génétique
La voix présente des différences majeures avec les empreintes digitales et génétiques :
* La voix évolue au cours du temps, que ce soit à court terme (moment de la journée), à moyen terme (période
de l'année) et à long terme (avec l'âge), ainsi qu'en fonction de l'état de santé ou l'état émotionnel.
* La voix est un élément modifiable volontairement (cf. les imitateurs) et aisément falsifiable, avec les moyens
techniques existants.
De plus, l'évaluation scientifique de la fiabilité des empreintes digitales et génétiques repose notamment sur
l'existence de bases de données expérimentales de dimension très importante. Dans le domaine vocal, les bases de
données disponibles actuellement ne comportent pas un nombre suffisant de locuteurs, de langues, de conditions
d'enregistrement pour évaluer la fiabilité des méthodes existantes dans un contexte d'authentification vocale.
« Identification vocale », des procédés non étayés par une démarche scientifique
Dans l'état actuel des connaissances, il n'existe pas de procédures, automatiques ou basées sur une « expertise »,
permettant d'avancer avec certitude qu'une personne est - ou n'est pas - l'auteur d'un enregistrement vocal [1].
Ceci est d'autant plus vrai lorsqu'il s'agit d'authentifier un enregistrement « de durée limitée, avec fond sonore
important, enregistré dans de mauvaises conditions techniques et provenant d'un locuteur ayant pu déguiser ou
modifier artificiellement sa voix » [2].
Des travaux internationalement reconnus, effectués avec la plus grande rigueur méthodologique, tels que ceux qui
sont publiés dans les revues internationales confirment scientifiquement ces affirmations [5] [6].
1 L'AFCP a été créée à l'initiative du Groupe Francophone de la Communication Parlée (GFCP) de la Société Française d'Acoustique (SFA)
en novembre 2001.
SIRET : 440 910 354 00016 - APE/NAF : 913 - Tel : (+33/0) 4 90 84 35 00 - Fax : (+33/0) 4 90 84 35 01
E-mail : secretariat-afcp@afcp-parole.org - Web : http://www.afcp-parole.org
La « reconnaissance automatique du locuteur », une technologie imparfaite utilisable dans certain cas
La voix contient des informations caractérisant partiellement un locuteur. Le domaine scientifique utilisant ces
informations pour vérifier l'identité d'une personne est appelé « reconnaissance automatique du locuteur ». Les
applications habituellement visées concernent l'authentification de l'utilisateur, que ce soit pour un accès matériel (à
un local, par exemple) ou à un service (notamment, par l'intermédiaire du téléphone).
Les techniques de reconnaissance automatique du locuteur sont basées sur la mesure de ressemblances entre des
enregistrements de parole. Ces mesures sont faites sur des paramètres acoustiques extraits par analyse du signal.
Elles prennent en compte des caractéristiques statistiques du locuteur, ainsi que le contenu du message vocal, les
informations sur l'environnement et le matériel d'enregistrement.
Pour garantir un niveau de performance acceptable dans les contextes applicatifs habituels, les conditions suivantes
doivent être remplies :
* Le locuteur ne cherche pas à masquer sa voix : il cherche à être reconnu et il coopère avec le système.
* Les conditions d'enregistrement et de traitement du signal audio sont connues et/ou contrôlées.
* La mesure de ressemblance est préalablement étalonnée au cours d'expériences réalisées dans des
conditions comparables au contexte d'utilisation. La décision doit être calibrée en fonction des résultats de
ces expériences et en fonction de l'application visée2.
* Les imposteurs éventuels sont dissuadés d'avoir recours à des moyens technologiques sophistiqués
permettant de falsifier une voix. Ceci est en général induit par l'ergonomie du système.
* En outre, il est préférable que le contenu linguistique du message soit composé de mots déjà connus par le
système, pour que la ressemblance entre les voix puisse être calculée sur des éléments comparables.
Sans coopération du locuteur, sans contrôle du matériel de prise de son, sans connaissance des conditions
d'enregistrement, sans certitude qu'il ne s'agit pas d'une voix falsifiée et - dans une moindre mesure - sans
contrôle du contenu linguistique des messages, il n'est pas possible de déterminer à quel point une
ressemblance entre deux messages vocaux est due au locuteur et non à d'autres facteurs.
A ce jour, il n'existe pas de procédé scientifique
« d'identification d'une personne par sa voix »
Références bibliographiques

[1] Pétition pour l'arrêt des expertises vocales, tant qu'elles n'auront pas été validées scientifiquement. Pétition du GFCP de la
SFA, 1999. (http://www.afcp-parole.org/doc/petition.pdf)
[2] Motion adoptée à l'unanimité par le Bureau du GCP (Groupe de la Communication Parlée) de la SFA, reconduite
intégralement par le GFCP de la SFA en 1997 et par l'AFCP en 2002.
(http://www.afcp-parole.org/doc/MOTION_1990.pdf).
[3] L. J. Boë, F. Bimbot, J.F. Bonastre, P. Dupont, De l'évaluation des systèmes de vérification du locuteur à la mise en cause
des expertises vocales en identification juridique, Langues, Vol. 2, n°4 Décembre 1999, pp 270-288
(http://www.afcp-parole.org/doc/Article-Langue.pdf)
[4] L.J. Boë, Forensic voice identification in France, Speech Communication, ed. Elsevier, Volume 31, Issues 2-3, June 2000,
pp. 205-224
[5] C. Champod, D. Meuwly, The Inference of identity in forensic speaker identification, Speech Communication, ed.
Elsevier, Volume 31 (2000), pp. 193-203 (http://www.unil.ch/ipsc/pdf/science.pdf)
[6] Martin, A., Przybocki, M., "The NIST 1999 Speaker Recognition Evaluation - An Overview", Digital Signal Processing,
Vol. 10, Num. 1-3. January/April/July 2000, pp. 1-18
2 Pour une même mesure, dans un même environnement, la réponse à la question « est-ce la même personne qui a prononcé ces deux messages vocaux ? » peut être
différente suivant que le système privilégie le facteur sécurité (ne pas répondre oui à tort à la question précédente) ou la satisfaction du client (ne pas répondre non à
tort à la question précédente).

*******************************************************************
B. Dépouillement du vote pour le CA de l'AFCP

Le dépouillement du vote pour le CA de l'AFCP aura lieu à l'Institut des Sciences
de l'Homme, à Lyon le mercredi 18 décembre à 14h30.

Vous (membres de l'AFCP) êtes les bienvenus !

***********************************************************************

C. Nos thèses : passées et futuresŠ

Titre :
Intégration de sources de connaissances pour la modélisation stochastique du langage appliquée à la parole continue dans un contexte de dialogue oral homme-machine.

Auteur : Yannick ESTEVE

Thèse soutenue le jeudi 28 novembre 2002 pour obtenir le titre de docteur en informatique de l'Université d'Avignon et des Pays de Vaucluse.

Jury :
Marc EL-BEZE (Professeur, LIA) Président
Pietro LAFACE (Professeur, Ecole Polytecnique de Turin) Rapporteur
Kamel SMAILI (Professeur, LORIA) Rapporteur
Frédéric BECHET (MDC, LIA) Examinateur, Co-Directeur de Thèse
Renato DE MORI (Professeur, LIA) Examinateur, Directeur de Thèse
Denis JOUVET (Ingénieur, FTRD) Examinateur

Résumé de la thèse :
Les modèles de langage n-grams, qui constituent les modèles de langage de référence en reconnaissance de la parole, modélisent des contraintes sur n mots à partir d'événements observés sur un corpus d'apprentissage. Ces modèles donnent des résultats relativement satisfaisants car ils profitent d'une caractéristique commune à plusieurs langues, dont le français, qui exercent des contraintes locales fortes sur l'ordre des mots. Ils arrivent ainsi à résumer simultanément une grande partie des connaissances syntaxiques et sémantiques issues de l'observation du corpus d'apprentissage. Malheureusement, l'utilisation de ces modèles probabilistes est confrontée à plusieurs difficultés (manque d'informations statistiques, portée des contraintes modélisées trop courtes pour certains phénomènes linguistiques).
Afin de pallier certaines faiblesses des modèles n-grams, nous proposons d'utiliser plusieurs sources de connaissance a priori. Ces connaissances sont injectées à plusieurs niveaux. Nous proposons un modèle hybride qui combine un modèle de langage n-gram avec des grammaires régulières locales : les connaissances linguistiques apportées par ces grammaires sont directement intégrées dans le modèle. Des connaissances a priori sont également exploitées pour la création de modèles de langage n-grams spécialisés et pour leur utilisation au cours d'un dialogue oral homme-machine. De même, l'analyse des caractéristiques des hypothèses issues de différents systèmes de reconnaissance utilise diverses sources de connaissances. Cette analyse permet de choisir l'hypothèse de reconnaissance la plus pertinente ou de rejeter l'ensemble des hypothèses proposées. Enfin des connaissances a priori sont prises en compte pour élaborer des critères de consistance linguistique. Ces critères permettent de détecter certains types d'erreurs qui peuvent être corrigées à l'aide de modèles de langage très spécifiques, appelés modèles stratégiques.

_________________________
Yannick ESTEVE
France Télécom R&D - DIH/IPS
2 avenue Pierre Marzin
22307 Lannion Cedex 07

Tel : 02.96.05.13.88
Fax : 02.96.05.35.30

*******************************************************************
UNE MODELISATION AUTOMATIQUE DU RYTHME
POUR L'IDENTIFICATION DES LANGUES

Auteur : Jerôme FARINAS

le Vendredi 15 Novembre 2002, 13:45
Auditorium IRIT
Jury :
MM. J. F. Bonastre Rapporteurs
D. Hirst
MM. D. Dours Examinateurs
E. Geoffrois
F. Pellegrino
Mme. R. Andre-Obrecht Directrice de thèse

Mots clefs :
identification automatique des langues, prosodie, rythme,
pseudo-syllabe, traitement automatique de la parole.

Résume :

De toutes les sources d'information disponibles pour réaliser des systèmes d'identification automatique des langues, la prosodie est
considérée comme la plus prometteuse. Elle occupe déjà une place
prépondérante chez l'humain, mais n'a pas su jusqu'à présent se
montrer réellement efficace avec des systèmes automatiques. Nous
proposons ici une modélisation du rythme des langues, en utilisant une
unité multilingue et artificielle : la "pseudo-syllabe". Cette unité
est basée sur un des motifs les plus récurrents des langues du monde,
la structure consonne-voyelle des syllabes. Les modèles des langues
sont réalisés autour de paramètres extraits de la durée des consonnes
et des voyelles mais également de l'intonation des pseudo-syllabes.
Des expériences sont menées sur les cinq langues (allemand, anglais,
espagnol, français et italien) du corpus européen MULTEXT. Dans une
tache d'identification sans rejet sur ces cinq langues, avec des
énoncés d'une durée moyenne de 21s, le taux d'identification correcte
obtenu avec les modèles du rythme est de 79%. La prise en compte
conjointe de modélisation de l'espace acoustique des segments
vocaliques et des quelques paramètres lies a l'intonation aboutit a un
taux d'identification correcte supérieur a 90%, en n'utilisant que les
cinq premières secondes des énoncés. Ces résultats, proches de ceux
obtenus en utilisant des approches plus classiques en identification
automatique des langues, démontrent la pertinence du modèle rythmique
propose et apportent de nouvelles perspectives du point de vue de la
robustesse des systèmes.

--
jerome.farinas@irit.fr tel/fax : +33 561558835/6258
http://www.irit.fr/recherches/SAMOVA/ mob : +33 685229687

****************************************************************

Avis de soutenance de thèse de Sciences du langage - Spécialité : Phonétique
===========================

Vendredi 20 décembre 2002, à 14h

UMB - Institut de Phonétique de Strasbourg - Équipe d'Accueil 3403
THÈSE DE DOCTORAT EN SCIENCES DU LANGAGE

Véronique FERBACH-HECKER

LA PERCEPTION AUDITIVE DE L'ANTICIPATION DES GESTES VOCALIQUES EN FRANCAIS

Membres du jury :
M. Christian ABRY
Institut de la Communication Parlée de Grenoble (ICP)
Université Stendhal - INPG UMR 5009
M. André BOTHOREL
iPS, E. A. 3403 "Institut de Phonétique"
Université Marc Bloch, Strasbourg
M. Shinji MAEDA
CNRS - École Nationale Supérieure des Télécommunications Paris
M. Rudolph SOCK, directeur de thèse
iPS, E. A. 3403 "Institut de Phonétique"
Université Marc Bloch, Strasbourg

Résumé
Cette recherche s'organise autour d'un thème majeur en production et en perception de la parole : l'efficacité auditive des gestes anticipatoires vocaliques.
Nos recherches ont pour objet d'explorer les mécanismes d'identification acoustique-auditive utilisés lors de l'exploitation des phénomènes de coarticulation. Il s'agit de comprendre comment le décalage naturel des gestes articulatoires ou l'anticipation motrice - en avance sur le signal acoustique - contribue à l'amélioration de la perception auditive du message linguistique. Les phénomènes d'anticipation sont généralement localisés en début d'énonciation, pendant certaines pauses prosodiques, mais aussi dans des silences acoustiques où, alors que la portion du signal acoustique correspondant à la production d'une voyelle nettement audible n'est pas encore accessible à l'auditeur, certains gestes articulatoires peuvent déjà présenter une anticipation de quelques dizaines de millisecondes.
L'originalité de ce paradigme de l'anticipation gestuelle réside dans le fait qu'elle nous offre la possibilité de tester expérimentalement la conception de la perception auditive de la parole comme une émergence de catégories sensori-motrices linguistiques.
Nos résultats montrent que l'efficacité perceptive de l'anticipation labiale, par exemple, peut permettre une identification de la voyelle labialisée à 90 % jusqu'à 180 ms avant que le moindre signal acoustique n'ait été émis.
L'extension temporelle de l'effet perceptif auditif dépend du timing des gestes articulatoires et à la manière dont les événements cinématiques se présentent sur la façade auditive des gestes de protrusion ou d'anticipation linguale. Toute information acoustique précoce semble être fortement liée à l'apparition du pic de vitesse des gestes anticipatoires.
En outre, nous avons constaté que la réaction des auditeurs dépendait des stratégies articulatoires propres aux locuteurs.

La soutenance de la thèse aura lieu le Vendredi 20 décembre 2002, à 14h
à l'Institut de Phonétique, Patio-bât. IV, 4ème étage, salle 402

****************************************************************

Titre de la thèse : Interaction entre prosodie et (co)articulation en français
Auteur : Yohann Meynadier

Directeur de thèse : Alain Marchal, Laboratoire Parole et Langage, UMR 6057
CNRS
Université : Université de Provence (Aix-Marseille I)
Laboratoire : Laboratoire Parole et Langage, UMR 6057 CNRS
Lieu : Aix-en-Provence

Devant le jury présidé par :
Albert Di Cristo, professeur, Université de Provence
Composé de :
Jonathan Harrington, professeur, Christian-Albrechts-Universität zu Kiel (rapporteur)
Rudolph Sock, professeur, Université Marc Bloch de Strasbourg (rapporteur)
Didier Demolin, professeur, Université Libre de Bruxelles
Noël Nguyen, professeur, Université de Provence
Alain Marchal, directeur de recherche CNRS, Université de Provence

Mots clés : hiérarchie prosodique, coarticulation, groupes de consonnes,
électropalatographie

Résumé :
Les travaux concernés par les relations entre articulation et la structure
prosodique montrent qu'une réduction de la coarticulation/coproduction, un
renforcement des traits distinctifs, de l'amplitude, de la durée des
gestes et/ou des modifications de timing accompagnent régulièrement les
proéminences et les frontières prosodiques de l'énoncé. Bien qu'il n'y ait
pas d'indices articulatoires spécifiques et constants de la hiérarchie
prosodique, deux résultats généraux semblent acquis : (1) une position
prosodique forte n'implique jamais un processus articulatoire
d'affaiblissement segmental, et (2) quand un renforcement est produit, il
tend à varier graduellement et parallèlement avec le niveau de la
proéminence ou de la frontière dans la hiérarchie prosodique. Ce
comportement articulatoire est mis en évidence particulièrement au regard
des co-variations articulatoires supraglottiques en fonction de la
hiérarchie des proéminences et en position initiale (post-frontière) de
constituants prosodiques de différents niveaux hiérarchiques, notamment en
français. Reste que nous ne connaissons pas d'étude qui traite
spécifiquement de cet effet hiérarchique en position prosodique finale en
français, alors que celle-ci, étant le domaine des marques de frontière et
de l'accent final dominant, occupe une place essentielle dans
l'organisation structurelle prosodique de l'énoncé dans cette langue.
Cette thèse s'intéresse particulièrement à cette question. Elle concerne
l'influence sur la dynamique articulatoire linguopalatale (EPG) d'une
hiérarchie prosodique de quatre niveaux croissants de frontière occupant
une position médiane dans une séquence aC#Ca, composée des groupes de
consonnes linguopalatales /kl/, /kt/, /lk/ et /tk/. Les résultats
rapportent qu'un ensemble de co-variations articulatoires homogènes et
variant catégoriellement en fonction du niveau hiérarchique de la
frontière prosodique existent. Celui-ci semble pouvoir constituer un
processus articulatoire général inter-individuel caractérisé par des
modifications de durée et du timing intra- et inter-gestuel. Ainsi, il
apparaît que plus la frontière démarque un constituant prosodique de
niveau élevé : (i) plus l'articulation de la voyelle finale est renforcée
par une ouverture linguopalatale plus longue et plus ample ; (ii) plus la
cohésion articulatoire au sein de la rime de la syllabe finale est accrue
par une coordination inter-gestuelle plus étroite entre la voyelle et la
consonne codaïque ; (iii) plus la démarcation frontalière est renforcée
par une coproduction inter-consonantique plus réduite et un délai
articulatoire plus important entre la consonne codaïque pré-frontalière et
la voyelle de la syllabe initiale post-frontalière. Ces corrélats
articulatoires de la structure prosodique répondent essentiellement à deux
ou trois niveaux hiérarchiques de frontière prosodique : frontière
syllabique ou lexicale < frontière accentuelle << frontière intonative.
Ainsi, les co-variations supraglottiques accompagnent de façon plus en
plus privilégiée, c'est-à-dire systématique et marquée, les distinctions
prosodiques hiérarchiques suivantes : (i) frontière de groupe intonatif
conclusif vs frontière de groupe intonatif continuatif ; (ii) frontière de
groupe accentuel vs frontière de mot ou de syllabe inaccentuée ; (iii)
frontière de groupe intonatif vs frontière de groupe accentuel, de mot ou
de syllabe inaccentuée. Ces résultats permettent de préciser la nature et
le degré de corrélation de l'interaction entre structure prosodique et
articulation segmentale, au regard de la profondeur des architectures
prosodiques (nombre et nature des niveaux de constituance prosodique), des
relations entre traits suprasegmentaux et dimensions articulatoires
(spatiale et temporelle), des positions syntagmatiques (initiale et
finale) face à la frontière, du contexte phonotactique et de la
variabilité articulatoire inter-individuelle.

contact : yohann.meynadier@lpl.univ-aix.fr

****************************************************************

D. Vient de paraître !!!

INTRODUCTION A LA PHONETIQUE
ET A LA PHONOLOGIE AFRICAINES
Les sons de tous les jours : le cas Akan (TWI)

Author/Auteur : Kofi ADU MANYAH
Ed./Editeur : Harmattan, Paris
Collection : LANGUE & PAROLE
Genre : SCIENCES HUMAINES
ISBN : 2-7475-3399-9
322 pages

Price/Prix editeur : 26,00 euros

Price/Prix alapage.com : 24,70 euros
Save/Vous economisez 1,30 euros (-5 %)
www.alapage.com

Thanks/Merci
dukofi20022003@yahoo.com

************************************************************************************

**************************************************
**************************************************
Rudolph Sock
Institut de Phonetique de Strasbourg
IPS - Equipe d'Accueil 3403
Universite Marc Bloch
22, rue Descartes
67084 Strasbourg
FRANCE
Tel. + (33) 3 88 41 73 68
Fax + (33) 3 88 41 73 69
+++++++++++++++++++++++++++++++++++++++++
Home: 23, rue de l'Ancienne Eglise
67076 Gambsheim
Tel + (33) 3 88 96 97 67