Corpus

Retrouvez ci-dessous une liste non exhaustive de corpus en lien avec le domaine de la Communication Parlée …
(Vous voulez voir apparaître un corpus particulier, contactez-nous …)


Commonvoice French, 350 heures (validées); 412 heures (total), https://voice.mozilla.org/fr/datasets

SIWIS, 10 heures, 9750 phrases du parlement lues par un acteur (avec/sans emphase), https://datashare.is.ed.ac.uk/handle/10283/2353

Augmented LibriSpeech,  English utterances (from audiobooks) automatically aligned with French text, https://persyval-platform.univ-grenoble-alpes.fr/DS91/detaildataset


M-AILABS French-v0.9 Corpus, 190 heures https://www.caito.de/2019/01/the-m-ailabs-speech-dataset/

Snips SLU Corpus, 1138 « Smart Speaker FR » (~50 minutes) phrases, 30 locuteurs, https://github.com//snipsco/spoken-language-understanding-research-datasets

Librivox, Français, 140 heures, https://librivox.org


ASCYNT, 4 heures, 23 locuteurs originaires du Sud Ouest de la France

LibriSpeech ASR corpus, 1000 heures, audiobooks, anglais, http://www.openslr.org/12/

TED-LIUM, 452 heures, TED Talks, https://lium.univ-lemans.fr/ted-lium3/


TCOF, Traitement de Corpus Oraux en Français


Corpus ESTER 1, ~100 heures d’émissions radiophoniques, http://www.elda.org/en/projects/archived-projects/evalda/

Corpus ESTER 2, ~100 heures d’émissions radiophoniques

EPAC, 100 heures d’émissions radiophoniques


Forensic Voice Comparison database, + de 500 locuteurs, anglais australien, http://databases.forensic-voice-comparison.net/