Human Beatboxing: pushing the boundaries of human voice production (Le Human Beatbox : aux limites des frontières de la production vocale humaine) - Association Francophone de la Communication Parlée

Le Human Beatbox (HBB) est un art vocal relativement jeune et en pleine évolution : les beatboxeurs utilisent leurs organes vocaux pour imiter et créer des sons afin de faire de la musique. Si le HBB est né en milieu défavorisé comme substitut gratuit aux instruments de musique trop coûteux (les « beat boxes » ou boîtes à rythme, d’où le nom), aujourd’hui sa pratique s’est démocratisée au sein d’une large communauté qui ne connaît pas de frontières nationales, et ce aussi grâce aux médias sociaux. Comme nombre d’autres pratiques vocales, le HBB fait l’objet aujourd’hui de compétitions officielles à l’échelle nationale et internationale, où les performances ou « battles » sont jugées par un jury reconnu, sur des critères qui se veulent objectifs.  Un environnement assez jeune et globalisé, une communauté soudée, une grande compétitivité, une quête perpétuelle à la démarcation par rapport aux autres beatboxeurs font du HBB un terrain fertile pour l’expérimentation vocale et la naissance de nouveaux sons de plus en plus difficiles à produire. Malgré le clair intérêt que cet art vocal représente pour les Sciences de la Voix, seules quelques études scientifiques se sont penchées sur le HBB jusqu’à présent. Les mécanismes de production et l’étendue de l’exploitation du conduit vocal humain que cet art permet d’atteindre restent largement inexplorés. Si d’une part, les sons de HBB sont produits de manière à ce que l’auditeur naïf ne comprenne pas l’origine humaine de cette production musicale, d’autre part, les beatboxeurs s’appuient fortement sur les sons linguistiques pour apprendre, enseigner et discuter des sons de HBB. Cependant, les détails du lien entre parole et HBB demeurent largement inexplorés. Dans le cadre de ce travail de thèse, nous nous sommes tachée d’apporter un début de réponse à ces interrogations. Nous avons mené une étude à multiples facettes pour caractériser les mécanismes de production de 5 sons de batterie – la base du HBB – (kick, hi-hat, snare, rimshot, cymbal), en mettant en évidence ce qui est spécifique au HBB et ce qui est similaire aux homologues de la parole. Nous avons enregistré 6 beatboxeurs et constitué la première base au monde de multiples données physiologiques synchronisées. Nous avons analysé les données de deux corpus, comprenant des données articulatoires, acoustiques, électroglottographiques, respiratoires et vidéo collectées de manière synchrone, et d’un corpus de données endoscopiques. Nous avons étudié 12 sons de HBB appartenant à 5 catégories de sons de batterie (kick, hi-hat, rimshot, snare, cymbales) produits par un beatboxeur et avons constaté qu’une classification automatique non supervisée était capable de regrouper correctement les données acoustiques, suggérant que chaque son de HBB a sa propre signature acoustique, c’est-à-dire chaque son véhicule assez d’information acoustique pour que un auditeur puisse correctement l’identifier. De ce fait, nous avons proposé l’introduction de la notion de « boxème », en nous inspirant de celle de phonème, pour mettre en avant cet aspect significatif des sons de HBB comme éléments constitutifs d’une phrase musicale. Une variété de gestes articulatoires a été décrite, certains différents de ceux attestés en parole. Malgré le nombre limité de boxèmes explorés, nous avons observé une large palette de mécanismes de production, certains non attestés en parole et utilisant des flux d’air pulmonaire, glottique et lingual. Une annotation phonétique utilisant l’API a été proposée, soulignant la complexité de la production sonore et les limites de l’annotation basée sur la parole pour les sons de HBB. Par conséquent, nous avons constaté la pertinence d’un système de classification basé sur des mécanismes articulatoires et aérodynamiques (Helgason, 2014) tels que le type de source (myoélastique, turbulente, sifflée) et le mécanisme d’initiation (pulmonaire, glottique, vélaire) pour la description des boxèmes. Nous avons comparé les boxèmes de base kick, hi-hat, rimshot aux homologues parlés [pu, ti, ka] et avons constaté que les comportements acoustique, articulatoire et respiratoire différent de manière parfois substantielle entre parole et HBB. D’un point de vue articulatoire, les trois sons de HBB étaient produits par le biais d’articulations occlusives et partageaient le lieu d’occlusion avec les consonnes parlées. Cependant, alors que les consonnes étaient produites via un flux d’air pulmonaire, les boxèmes étaient produits par une action de piston laryngé, c’est-à-dire grâce à un mécanisme d’initiation glottique. Ce mouvement laryngé affecte le mouvement de la langue dans la cavité orale, qui se manifeste par des boucles articulatoires en l’absence de coarticulation avec des sons vocaliques. Ces boucles suggèrent une action de traction de la langue sur le larynx qui pourrait augmenter l’efficacité du mécanisme d’initiation glottique. En outre, des vitesses articulatoires plus élevées lors du relâchement de l’occlusion ont été mesurées pour les productions de HBB.  Le comportement respiratoire, quant à lui, différait entre la parole et le HBB. Pour les tâches de parole, un schéma d’inspiration suivi d’une expiration pendant la production de la phrase a été décrit, conforme à la notion de groupe de souffle. Pour les tâches de HBB, nonobstant une certaine variabilité inter-sujet et inter-stimuli, un comportement spécifique a été décrit, avec une tendance à stabiliser la circonférence thoracique et éventuellement abdominale pendant la production de la phrase musicale, et des variations locales accompagnant la production acoustique. Aucune pause spécifiquement consacrée à la prise de souffle n’a été observée au long de la phrase musicale, ce qui rend la notion de groupe de souffle mal adaptée à la production beatboxée. L’inspiration peut intervenir pendant la production sonore et ce via des micro-inspirations entre un boxème et l’autre, ou en passant d’un mécanisme égressif à un mécanisme ingressif pour certains boxèmes, ou bien en exploitant des boxèmes produits par défaut via un flux d’air ingressif pulmonaire.  En somme, notre travail suggère que les beatboxeurs pourraient naturellement recourir aux sons de la parole pour fournir facilement des indications générales sur le lieu d’articulation et le type de source, en s’appuyant sur les connaissances phonétiques intrinsèques à chaque locuteur. Cependant, des modifications substantielles, au moins au niveau du mécanisme d’initiation et de l’emplacement de la source, ont clairement lieu lorsque les consonnes de la parole sont transformées en boxèmes. De plus, si la parole est associée à la phonation pendant la phase expiratoire d’un cycle respiratoire et que des pauses sont nécessaires pour la prise de souffle, la production de HBB est caractérisée par une utilisation complètement différente de la respiration, où les flux d’air ingressifs servent simultanément à la production des sons et à la satisfaction des besoins respiratoires physiologiques. La production de trois boxèmes (kick, hi-hat, rimshot) ont été comparés en deux types de HBB: standard et humming. La technique du humming permet aux beatboxeurs de superposer de manière synchrone une ligne mélodique à une ligne rythmique, alors que le HBB standard ne permet de produire que l’une ou l’autre à la fois. Cependant, la manière dont cela est réalisé n’a jamais été décrite d’un point de vue scientifique. Nous avons constaté que les mécanismes respiratoires et articulatoires sont liés dans le HBB standard, alors que en humming, ils sont dissociés. Nous avons observé que le HBB standard est associé à des mécanismes d’initiation pulmonaire et glottique, alors que en humming les boxèmes constituant la ligne rythmique sont systématiquement produits grâce à des mécanismes d’initiation orale. Le conduit oral est ainsi séparé en deux unités fonctionnelles via une occlusion stable et maintenue dans le temps entre dos de la langue et vélum : le conduit vocal oral et le conduit vocal laryngé. Le conduit vocal oral est consacré à la production de la ligne rythmique via des mécanismes d’initiation orale. Le conduit vocal laryngé est, quant à lui, consacré à la production de la ligne mélodique, via la production d’un flux d’air supplémentaire, pulmonique ou glottique. La production de la ligne rythmique et de la ligne mélodique sont indépendantes l’une de l’autre et, par conséquent, d’un point de vue phonétique, le terme « humming » n’indique pas la présence d’une vibration des plis vocaux se propageant à travers les cavités nasales. Il impliquerait plutôt le choix pour la ligne rythmique de stratégies articulatoires capables de produire des sons via des mécanismes d’initiation orale, et la possibilité d’exploiter un autre mécanisme d’initiation pour la ligne mélodique. À notre connaissance, il s’agit d’une utilisation très habile du conduit vocal qui n’est pas attestée dans les productions vocales autres que le HBB. L’utilisation que le humming HBB fait du conduit vocal peut être justifiée à la lumière du Laryngeal Articulator Model (LAM, Esling et al., 2019), où en effet la langue et le larynx sont deux articulateurs complexes séparés qui peuvent fonctionner de manière relativement indépendante l’un de l’autre, chacun dans son propre segment du conduit vocal. Nous soutenons que le humming HBB peut être considéré comme l’un des éléments de preuve les plus convaincants en faveur du LAM.