Předmět Workshop Sestav si svůj korpus: anotace a prohledávání mluvených dat pomocí programu ELAN (ALINV907B)
Na serveru studentino.cz naleznete nejrůznější studijní materiály: zápisky z přednášek nebo cvičení, vzorové testy, seminární práce, domácí úkoly a další z předmětu ALINV907B - Workshop Sestav si svůj korpus: anotace a prohledávání mluvených dat pomocí programu ELAN, Filozofická fakulta, Univerzita Karlova v Praze (UK).
Top 10 materiálů tohoto předmětu
Materiály tohoto předmětu
Materiál | Typ | Datum | Počet stažení |
---|
Další informace
Sylabus
Čeština disponuje několika velkými veřejně dostupnými mluvenými korpusy, např. řadou ORAL či korpusy DIALOG a MONOLOG, které se snaží pokrýt různé body na škále variet mluveného jazyka. Jeho situační a sociolingvistická rozrůzněnost je ovšem tak veliká, že není těžké narazit na jevy, u nichž nám jazyková intuice sice našeptává, že jsou v jistém ohledu typické a zasluhují bližší popis, ale kvůli povaze sběru dat, situačním či regionálním omezením jsou v dostupných korpusech zastoupeny pouze marginálně či rovnou vůbec. Chce-li je tedy lingvista empiricky zkoumat, nezbývá mu, než si data se zacílením na příslušnou výzkumnou otázku nasbírat sám.Naštěstí existují různé volně dostupné softwarové nástroje určené k tomu, aby nám jak s transkripcí (tj. přímým přepisem promluvy), tak s anotací (tj. doplněním lingvistických informací nad rámec přepisu) a analýzou (prohledáváním) mluvených dat pomohly. Kromě programů jako je Praat, ANVIL nebo EXMARaLDA patří mezi nejpopulárnější a nejintuitivnější ELAN (EUDICO Linguistic Annotator). ELAN umožňuje anotaci zvukových a video souborů (i několika zároveň) a primárně je zacílen na výzkum multimodální komunikace (gestika, mimika, proxemika…), ale stejně dobře jde použít i pro výzkum v tradičnějších lingvistických disciplínách (morfologie, syntax). Výstupní soubory odpovídají standardu XML, což ulehčuje případnou další práci s nimi v jiných programech, ovšem již sám ELAN obsahuje pokročilé nástroje k prohledávání více souborů najednou a funguje tedy i jako konkordancer.Cílem workshopu bude nastínit typický postup práce v ELANu od sběru dat přes jejich přepis až po analýzu. Důraz bude kladen především na úskalí při volbě způsobu transkripce mluveného jazyka a možnosti jeho další (para)lingvistické anotace. Postupně si projdeme:jak vzorky mluveného jazyka získat (jak nahrát sondu);jak zvuk naimportovat do ELANu a založit přepis;jak postupovat při přepisu, ať už koncepčně (sestavení transkripčního a anotačního schématu s ohledem na výzkumnou otázku) či metodologicky (samotný akt přepisování);jak výsledná data v případě potřeby hromadně upravovat a korpus prohledávat.Pokud možno, vezměte si s sebou prosím vlastní notebook, abyste si vše mohli na místě vyzkoušet.Literaturak programu ELANuživatelská příručka: http://www.mpi.nl/corpus/manuals/manual-elan_ug.pdfplný manuál: http://www.mpi.nl/corpus/manuals/manual-elan.pdfke specifikům mluveného jazyka a výzkumným otázkám, které se s nimi pojí:Adolphs, S. (2008): Corpus and context: investigating pragmatic functions in spoken discourse. Amsterdam: John Benjamins.Auer, P. (2009): On-line syntax: Thoughts on the temporality of spoken language. Language Sciences, 31, 1-13.Hoffmannová, J., Čmejrková a S., eds. (2011): Mluvená čeština. Praha: Academia.Kopřivová, M. a Waclawičová, M., eds. (2008): Čeština v mluveném korpusu. Praha: Nakladatelství Lidové noviny.Miller, J. a Weinert, R. (1998): Spontaneous Spoken Language: Syntax and Discourse. Oxford: Clarendon Press.Müllerová, O., Hoffmannová, J. a Schneiderová, E. (1991): Mluvená čeština v autentických textech. Praha: H&H.
Garant
Mgr. Magdalena ZíkováMgr. Jan Křivan, Ph.D.
Vyučující
Mgr. David Lukeš