Jak Začít?

Máš v počítači zápisky z přednášek
nebo jiné materiály ze školy?

Nahraj je na studentino.cz a získej
4 Kč za každý materiál
a 50 Kč za registraci!




Předmět Workshop Sestav si svůj korpus: anotace a prohledávání mluvených dat pomocí programu ELAN (ALINV907B)

Na serveru studentino.cz naleznete nejrůznější studijní materiály: zápisky z přednášek nebo cvičení, vzorové testy, seminární práce, domácí úkoly a další z předmětu ALINV907B - Workshop Sestav si svůj korpus: anotace a prohledávání mluvených dat pomocí programu ELAN, Filozofická fakulta, Univerzita Karlova v Praze (UK).

Top 10 materiálů tohoto předmětu

Materiály tohoto předmětu

Materiál Typ Datum Počet stažení

Další informace

Sylabus

Čeština disponuje několika velkými veřejně dostupnými mluvenými korpusy, např. řadou ORAL či korpusy DIALOG a MONOLOG, které se snaží pokrýt různé body na škále variet mluveného jazyka. Jeho situační a sociolingvistická rozrůzněnost je ovšem tak veliká, že není těžké narazit na jevy, u nichž nám jazyková intuice sice našeptává, že jsou v jistém ohledu typické a zasluhují bližší popis, ale kvůli povaze sběru dat, situačním či regionálním omezením jsou v dostupných korpusech zastoupeny pouze marginálně či rovnou vůbec. Chce-li je tedy lingvista empiricky zkoumat, nezbývá mu, než si data se zacílením na příslušnou výzkumnou otázku nasbírat sám.Naštěstí existují různé volně dostupné softwarové nástroje určené k tomu, aby nám jak s transkripcí (tj. přímým přepisem promluvy), tak s anotací (tj. doplněním lingvistických informací nad rámec přepisu) a analýzou (prohledáváním) mluvených dat pomohly. Kromě programů jako je Praat, ANVIL nebo EXMARaLDA patří mezi nejpopulárnější a nejintuitivnější ELAN (EUDICO Linguistic Annotator). ELAN umožňuje anotaci zvukových a video souborů (i několika zároveň) a primárně je zacílen na výzkum multimodální komunikace (gestika, mimika, proxemika…), ale stejně dobře jde použít i pro výzkum v tradičnějších lingvistických disciplínách (morfologie, syntax). Výstupní soubory odpovídají standardu XML, což ulehčuje případnou další práci s nimi v jiných programech, ovšem již sám ELAN obsahuje pokročilé nástroje k prohledávání více souborů najednou a funguje tedy i jako konkordancer.Cílem workshopu bude nastínit typický postup práce v ELANu od sběru dat přes jejich přepis až po analýzu. Důraz bude kladen především na úskalí při volbě způsobu transkripce mluveného jazyka a možnosti jeho další (para)lingvistické anotace. Postupně si projdeme:jak vzorky mluveného jazyka získat (jak nahrát sondu);jak zvuk naimportovat do ELANu a založit přepis;jak postupovat při přepisu, ať už koncepčně (sestavení transkripčního a anotačního schématu s ohledem na výzkumnou otázku) či metodologicky (samotný akt přepisování);jak výsledná data v případě potřeby hromadně upravovat a korpus prohledávat.Pokud možno, vezměte si s sebou prosím vlastní notebook, abyste si vše mohli na místě vyzkoušet.Literaturak programu ELANuživatelská příručka: http://www.mpi.nl/corpus/manuals/manual-elan_ug.pdfplný manuál: http://www.mpi.nl/corpus/manuals/manual-elan.pdfke specifikům mluveného jazyka a výzkumným otázkám, které se s nimi pojí:Adolphs, S. (2008): Corpus and context: investigating pragmatic functions in spoken discourse. Amsterdam: John Benjamins.Auer, P. (2009): On-line syntax: Thoughts on the temporality of spoken language. Language Sciences, 31, 1-13.Hoffmannová, J., Čmejrková a S., eds. (2011): Mluvená čeština. Praha: Academia.Kopřivová, M. a Waclawičová, M., eds. (2008): Čeština v mluveném korpusu. Praha: Nakladatelství Lidové noviny.Miller, J. a Weinert, R. (1998): Spontaneous Spoken Language: Syntax and Discourse. Oxford: Clarendon Press.Müllerová, O., Hoffmannová, J. a Schneiderová, E. (1991): Mluvená čeština v autentických textech. Praha: H&H.

Garant

Mgr. Magdalena ZíkováMgr. Jan Křivan, Ph.D.

Vyučující

Mgr. David Lukeš