Filozofická Fakulta

Workshop E

Podrobná anotace

 

Sestav si svůj korpus: anotace a prohledávání mluvených dat pomocí programu ELAN

David Lukeš

Čeština disponuje několika velkými veřejně dostupnými mluvenými korpusy, např. řadou ORAL či korpusy DIALOG a MONOLOG, které se snaží pokrýt různé body na škále variet mluveného jazyka. Jeho situační a sociolingvistická rozrůzněnost je ovšem tak veliká, že není těžké narazit na jevy, u nichž nám jazyková intuice sice našeptává, že jsou v jistém ohledu typické a zasluhují bližší popis, ale kvůli povaze sběru dat, situačním či regionálním omezením jsou v dostupných korpusech zastoupeny pouze marginálně či rovnou vůbec. Chce-li je tedy lingvista empiricky zkoumat, nezbývá mu, než si data se zacílením na příslušnou výzkumnou otázku nasbírat sám.

Naštěstí existují různé volně dostupné softwarové nástroje určené k tomu, aby nám jak s transkripcí (tj. přímým přepisem promluvy), tak s anotací (tj. doplněním lingvistických informací nad rámec přepisu) a analýzou (prohledáváním) mluvených dat pomohly. Kromě programů jako je Praat, ANVIL nebo EXMARaLDA patří mezi nejpopulárnější a nejintuitivnější ELAN (EUDICO Linguistic Annotator). ELAN umožňuje anotaci zvukových a video souborů (i několika zároveň) a primárně je zacílen na výzkum multimodální komunikace (gestika, mimika, proxemika…), ale stejně dobře jde použít i pro výzkum v tradičnějších lingvistických disciplínách (morfologie, syntax). Výstupní soubory odpovídají standardu XML, což ulehčuje případnou další práci s nimi v jiných programech, ovšem již sám ELAN obsahuje pokročilé nástroje k prohledávání více souborů najednou a funguje tedy i jako konkordancer.

Cílem workshopu bude nastínit typický postup práce v ELANu od sběru dat přes jejich přepis až po analýzu. Důraz bude kladen především na úskalí při volbě způsobu transkripce mluveného jazyka a možnosti jeho další (para)lingvistické anotace. Postupně si projdeme:

  • jak vzorky mluveného jazyka získat (jak nahrát sondu);
  • jak zvuk naimportovat do ELANu a založit přepis;
  • jak postupovat při přepisu, ať už koncepčně (sestavení transkripčního a anotačního schématu s ohledem na výzkumnou otázku) či metodologicky (samotný akt přepisování);
  • jak výsledná data v případě potřeby hromadně upravovat a korpus prohledávat.

Pokud možno, vezměte si s sebou prosím vlastní notebook, abyste si vše mohli na místě vyzkoušet.

Literatura

k programu ELAN

uživatelská příručka: http://www.mpi.nl/corpus/manuals/manual-elan_ug.pdf

plný manuál: http://www.mpi.nl/corpus/manuals/manual-elan.pdf

ke specifikům mluveného jazyka a výzkumným otázkám, které se s nimi pojí:

Adolphs, S. (2008): Corpus and context: investigating pragmatic functions in spoken discourse. Amsterdam: John Benjamins.

Auer, P. (2009): On-line syntax: Thoughts on the temporality of spoken language. Language Sciences, 31, 1—13.

Hoffmannová, J., Čmejrková a S., eds. (2011): Mluvená čeština. Praha: Academia.

Kopřivová, M. a Waclawičová, M., eds. (2008): Čeština v mluveném korpusu. Praha: Nakladatelství Lidové noviny.

Miller, J. a Weinert, R. (1998): Spontaneous Spoken Language: Syntax and Discourse. Oxford: Clarendon Press.

Müllerová, O., Hoffmannová, J. a Schneiderová, E. (1991): Mluvená čeština v autentických textech. Praha: H&H.