Pataquès et liaison : étude de deux phénomènes de sandhi externe dans des corpus de français chanté

Dans le cadre de cette thèse doctorale, je me suis intéressée à deux phénomènes de sandhi externe se produisant notamment en français : la liaison et le pataquès. Alors que le premier a été largement étudié dans des cadres théoriques très divers, le second, constituant un trait d’oralité généralement non orthographié, mais aussi un phénomène morphophonologique rare et bien souvent non normatif, l’a pour sa part très rarement été. J’ai proposé de définir les pataquès comme des liaisons inattendues par rapport à la consonne graphique finale du mot 1, ou mot liaisonnant. Ma thèse s’organise en cinq chapitres. Dans le premier, j’ai compilé un important état de l’art concernant les phénomènes de liaison et de pataquès, autant sous un angle linguistique que sociolinguistique. Le pataquès restant un phénomène encore peu étudié, cet état de l’art pourra servir de référence pour de futures analyses. Le second chapitre présente la méthodologie mise en place dans le cadre de cette thèse. L’objectif était notamment de parvenir à dépasser les collections d’exemples pour l’étude d’un phénomène rare comme le pataquès. Dans une première étape, il me semblait nécessaire de bien appréhender le phénomène en question à l’aide d’un état de l’art le plus exhaustif possible, combiné à une collection d’exemples. Dans une deuxième étape, j’ai tenté de carotter divers corpus, c’est-à-dire d’effectuer un échantillonnage non représentatif de ces corpus, auquel s’ajoutait une première fouille des données quand l’annotation de celles-ci le permettait. Une troisième étape appelait ensuite à constituer, si nécessaire, de nouveaux corpus, puis à les analyser, pour terminer, lors d’une quatrième étape. Dans un troisième chapitre, j’ai donc présenté deux corpus constitués dans le cadre de cette thèse, avant de mettre en avant les résultats obtenus dans un quatrième et un cinquième chapitres. L’avant-dernier présente les résultats de l’étape de carottage et de première fouille des données, et le dernier les résultats d’une analyse sur corpus de la liaison et du pataquès. Ce travail de recherche a ainsi été l’occasion de constituer deux nouveaux corpus linguistiques, transcrits et annotés pour l’étude de la liaison et du pataquès. Il s’agit de corpus oraux de français chanté : un corpus de tops 1, comprenant des chansons de l’industrie du disque francophones à succès, ayant atteint la première place de classements musicaux français entre 1956 et 2017 (corpus de 368 chansons d’une durée de 21h 39min, comptabilisant 112 123 mots pour 5 973 contextes de liaison possibles), ainsi que le fonds Jean Dumas, une collection de chants de tradition orale recueillis dans le centre de la France dans les années 1960 (échantillon de 498 chansons d’une durée de 18h 23min, comprenant 89 853 mots pour 5 787 contextes de liaison possibles). À ce jour, en dehors d’un cadre expérimental ou didactique, les corpus de français chantés restent peu exploités par les linguistes, contrairement aux dialectologues ou aux linguistes de terrain qui recueillent volontiers ces productions linguistiques. Par exemple, seul un corpus d’enfantines (jeux chantés des enfants) avait été mobilisé jusqu’alors pour l’étude systématique de la liaison. Le comportement de ce phénomène dans des corpus chantés restait donc jusqu’à cette thèse encore assez méconnu. Le corpus de tops 1 permet aussi de proposer un nouveau corpus oral micro-diachronique. En ce qui concerne l’étude du phénomène de liaison dans ce contexte, seuls des corpus de professionnels de la parole, et notamment de personnalités politiques, avaient été utilisés auparavant, ou encore des corpus variationnistes, mais sur des périodes moins étendues. Plus anecdotiquement, ce même corpus permet de mettre à jour certaines caractéristiques sociales des chanteurs à l’origine des chansons françaises à succès (majorité d’hommes ayant entre 20 et 35 ans) et comment se comportent les chansons atteignant cette position (durée de maintien). Enfin, la réutilisation dans le champ de la linguistique des données primaires du fonds Jean Dumas, des données patrimoniales provenant du champ de l’ethnomusicologie, crée par ailleurs un pont entre les deux disciplines. Dans le cadre de cette thèse, j’ai bénéficié, tout comme d’autres linguistes travaillant sur la liaison, d’un outil d’aide à l’annotation de la liaison et du pataquès, récemment conçu par Flora Badin, ingénieure d’études au Laboratoire Ligérien de Linguistique. Son caractère innovant repose notamment sur un pré-repérage automatique des contextes de liaison fondé sur des critères graphiques (liste de derniers caractères de mots 1, liste de premiers caractères de mots 2 (ou mots liés), voire liste d’exclusion de mots 1), ainsi que sur une pré-annotation automatique des liaisons, toutes ces annotations étant vérifiées manuellement par la suite. Cet outil permet d’éviter tout oubli, mais aussi une annotation plus rapide des liaisons et pataquès. Lors de la phase de carottage, j’ai pu m’appuyer sur divers corpus finalisés : un atlas linguistique en francoprovençal (l’Atlas Linguistique du Francoprovençal Valaisan), un corpus acquisitionnel (Acquisition de la Liaison et Interaction Parents Enfants), un corpus variationniste (Phonologie du Français Contemporain), ainsi que deux fonds ethnomusicologiques (les fonds Jean Dumas et Charles Joisten). Malgré son caractère chronophage, cette étape m’a permis de mieux savoir où borner le phénomène de pataquès, tout en observant des occurrences du phénomène dans tous les corpus, du moins en tenant compte de la première fouille des données lorsqu’elle était possible. Cela a été le cas pour les corpus ALIPE et PFC, où j’ai pu proposer un premier bilan qualitatif mais aussi quantitatif des pataquès observés : il s’agit bien d’un phénomène rare, puisqu’on note seulement 0,87% de réalisations (66/7 598) dans le corpus acquisitionnel et 0,11% (57/53 876) dans le corpus variationniste. Dans le premier, les productions enfantines en présentent davantage (2,4% ; 55/2 296) que les productions des adultes (0,2% ; 11/5 302) et dans le second, on en relève davantage en lecture (0,27 % ; 33/12 193) qu’en conversation (0,06% ; 24/41 668). Lors de la phase d’analyse sur corpus du fonds Jean Dumas et du corpus de tops 1, j’ai tout d’abord observé des dénasalisations surprenantes dans le premier, prenant la forme de dénasalisations de voyelles finales hors contexte de liaison devant un nom débutant en [n], ou de fermetures et dénasalisations de voyelles finales correspondant au graphème ‹un› en contexte de liaison, ces dernières étant réalisées à hauteur de 58% (90/157) après le déterminant un, phénomène qui n’avait encore jamais été observé en corpus. J’ai aussi relevé dans les deux corpus des non-réalisations de liaisons invariables et des réalisations dans des contextes habituellement considérés comme disjonctifs ou ne présentant normalement pas de liaisons, tout cela remettant en cause la typologie des contextes de liaison qui avait jusque-là été établie. Par ailleurs, les différents adjectifs masculins prénominaux pouvant déclencher une liaison sont connus pour être en nombre restreint, ce que mes données ont globalement confirmé. La consonne de liaison //ʁ// s’est pour sa part révélée beaucoup plus fréquente en langue chantée, en raison de sa réalisation accrue après des infinitifs, ce qui pourrait dénoter le caractère distant de ces productions. En outre, les liaisons sont davantage réalisées en langue chantée qu’en langue parlée (68% ; 3 704/5 459 de liaisons invariables réalisées dans le fonds Jean Dumas contre 44% ; 18 175/41 587 dans PFC et 54% ; 2 031/3 734 de liaisons variables réalisées dans le premier contre 19% ; 4 296/22 568 dans le second). Les données pour le corpus de tops 1 s’appréhendent mieux en diachronie, avec une chute de 68% (643/949) à 44% (512/1 168) au niveau global et de 54% (352/653) à 25% (208/845) au niveau des liaisons variables. J’ai plaidé pour un changement diaphasique plutôt que diachronique, les données de la dernière décennie se rapprochant de données de français parlé contemporain. Concernant les pataquès, ils sont plus fréquents dans le fonds Jean Dumas (5,67% ; 328/5 787), où j’ai observé l’ordonnancement suivant : /t/=/z/>//ʁ//>/n/, mais quasi-absents du corpus de tops~1 (0,03% ; 2/5 975). Pour finir, dans une perspective fondée sur l’usage, j’ai cherché à établir des liens entre la réalisation de certains pataquès et le fonctionnement des liaisons dans des contextes similaires : les différentes constructions semblent pouvoir s’influencer.