Anne Dister
Université Catholique de Louvain
Session JEP orale O5 Corpus Jeudi 12 Juin - 16h30 17h30
-
papier 1614
Corpus oraux et chunking
- Olivier Blanc ( Université Ludwig Maximilian de Munich)
- Matthieu Constant ( Université Paris-Est)
- Anne Dister ( Université Catholique de Louvain)
- Patrick Watrin ( Université Catholique de Louvain)
- Résumé : Nous présentons une procédure de segmentation en chunks de corpus oraux. Cette solution s'inscrit dans un projet visant l'étiquetage moprho-syntaxique automatique de l'oral, le chunking étant une première étape à partir de laquelle nous inférerons les étiquettes des différents mots du texte. Concrètement, nous opérons en deux temps. Nous prétraitons les données transcrites de l'oral afin de les rendre compatibles avec notre chunker. Cette première étape nous permet ensuite d'envisager le chunking de la même manière que nous le faisons pour l'écrit. Nous décrivons successivement les modules de normalisation et de chunking, puis nous complétons notre discussion en présentant une première évaluation.
- article