Analysis of vocal tremor in normophonic and dysphonic speakers

Résumé :
L’étude concerne l’analyse des perturbations des cycles glottiques chez des locuteurs normophoniques et dysphoniques.

Une méthode pour le suivi des durées de cycle dans la parole voisée est proposée. Les cycles glottiques sont détectés via la proéminence des échantillons du signal de parole, définie comme la longueur de l’intervalle temporel sur lequel un échantillon est un maximum. Le suivi des durées de cycle est basé sur un algorithme de programmation dynamique qui ne requiert pas que le signal soit localement périodique et que la durée moyenne de cycle soit connue a priori.

La méthode est validée sur la base d’un corpus de stimuli synthétiques. Les résultats montrent une bonne adéquation entre les séries temporelles de durées de cycle extraites et de référence. La méthode est capable de suivre de manière précise les modulations basses-fréquences ainsi que les perturbations cycle-à-cycle, jusqu’à 10% et 4% respectivement, et ce, sur l’entièreté de la gamme des fréquences vocales communément rencontrées chez les locuteurs ([60Hz; 400Hz]). La robustesse du suivi en présence de bruit a également été testée. Les résultats indiquent que le suivi est fiable pour un rapport signal-à-bruit supérieur à 15dB.

Une méthode pour l’analyse de la taille des perturbations de durées de cycle ainsi que leur fréquence est proposée. La série temporelle des durées de cycle est décomposée en une somme de composantes oscillantes au moyen de la décomposition en modes empiriques. Les enveloppes et fréquences instantanées des modes empiriques extraits sont obtenues au moyen d’une décomposition AM-FM. Sur la base de leurs fréquences instantanées moyennes, les modes empiriques sont ensuite assignés à quatre catégories (l’intonation vocale, le tremblement physiologique, le tremblement neurologique ainsi que le jitter (ou gigue) vocal ) et sommés au sein de chacune d’elles. La taille intra-catégorie des perturbations des durées de cycle est estimée via l’écart-type de la somme des modes empiriques, divisé par la durée de cycle moyenne. La fréquence de modulation et largeur de bande relatives au tremblement neurologique sont obtenues sur la base des fréquences et amplitudes instantanées des modes empiriques assignés à la catégorie relative au tremblement neurologique et résumées via une densité de probabilité pondérée de fréquences instantanées, dont la formulation tend à compenser les effets du mode mixing.

La méthode est appliquée à deux corpus de voyelles comprenant respectivement 123 et 74 enregistrements de locuteurs contrôles et 456 et 205 enregistrements de locuteurs parkinsoniens. Les résultats indiquent que :

* la profondeur de modulation du tremblement neurologique est statistiquement significativement plus élevée chez les locutrices parkinsoniennes par rapport aux locutrices contrôles.
* la fréquence de modulation diffère statistiquement significativement entre les locuteurs masculins et féminins et augmente statistiquement significativement pour les locuteurs parkinsoniens comparés aux locuteurs contrôles.
* la fréquence vocale moyenne augmente chez les locuteurs parkinsoniens masculins et décroît chez les locuteurs parkinsoniens féminins, comparé aux locuteurs contrôles.