Retrouvez ci-dessous une liste non exhaustive de corpus en lien avec le domaine de la Communication Parlée …
(Vous voulez voir apparaître un corpus particulier, contactez-nous …)
Commonvoice French, 350 heures (validées); 412 heures (total), https://voice.mozilla.org/fr/datasets
SIWIS, 10 heures, 9750 phrases du parlement lues par un acteur (avec/sans emphase), https://datashare.is.ed.ac.uk/handle/10283/2353
Augmented LibriSpeech, English utterances (from audiobooks) automatically aligned with French text, https://persyval-platform.univ-grenoble-alpes.fr/DS91/detaildataset
M-AILABS French-v0.9 Corpus, 190 heures https://www.caito.de/2019/01/the-m-ailabs-speech-dataset/
Snips SLU Corpus, 1138 « Smart Speaker FR » (~50 minutes) phrases, 30 locuteurs, https://github.com//snipsco/spoken-language-understanding-research-datasets
Librivox, Français, 140 heures, https://librivox.org
ASCYNT, 4 heures, 23 locuteurs originaires du Sud Ouest de la France
LibriSpeech ASR corpus, 1000 heures, audiobooks, anglais, http://www.openslr.org/12/
TED-LIUM, 452 heures, TED Talks, https://lium.univ-lemans.fr/ted-lium3/
Corpus oraux recensés par Ortolang : https://www.ortolang.fr/market/corpora/cluster/speech_corpora
BREF, 100 heures, 120 locuteurs, https://catalogue.elra.info/en-us/repository/browse/ELRA-S0067
TCOF, Traitement de Corpus Oraux en Français
Corpus ESTER 1, ~100 heures d’émissions radiophoniques, http://www.elda.org/en/projects/archived-projects/evalda/
Corpus ESTER 2, ~100 heures d’émissions radiophoniques
EPAC, 100 heures d’émissions radiophoniques
Forensic Voice Comparison database, + de 500 locuteurs, anglais australien, http://databases.forensic-voice-comparison.net/