Předmět Práce s jazykovými korpusy (KBH / 91MJK)
Na serveru studentino.cz naleznete nejrůznější studijní materiály: zápisky z přednášek nebo cvičení, vzorové testy, seminární práce, domácí úkoly a další z předmětu KBH / 91MJK - Práce s jazykovými korpusy, Filozofická fakulta, Univerzita Palackého v Olomouci (UP).
Top 10 materiálů tohoto předmětu
Materiály tohoto předmětu
Materiál | Typ | Datum | Počet stažení |
---|
Další informace
Obsah
Kurz, jehož obsah se bude řídit aktuálními zájmy účastníků, by měl studentům pomoci při sestavování a vyhodnocování vlastních malých korpusů pro speciální účely. Kurz se zabývá problematikou tvorby malých korpusů pro jazykovědné a literárněvědné účely dle požadavků a kritérií definovaných sestavovatelem. Budování korpusů zahrnuje kromě nutných filologických znalostí několik etap a oblastí technického rázu, jež budou v kurzu postupně probírány: (1) Formát: kódování znaků (ASCII, ANSI a Unicode) a formát dat (strukturovaný - XML vs. nestrukturovaný, tzv. plain text ".txt"). (2) Anotace (= metadata): externí vs. interní: strukturně-obsahová a lingvistická. (3) Nástroje: příprava a zpracování (zabudování do korpusového manažeru); korpus a vytěžování dat (dotazovací jazyk, anotace). Pro tvorbu korpusů jsou užívány volně dostupné softwarové nástroje (freeware, GNU GPL či OpenSource projekty); pozornost je věnována i možnostem automatizace procesu zpracování dat (segmentace: tokenizace a vertikála; konverze formátů ad.). Z metodologického hlediska jsou důsledně rozlišována data vs. metadata, dále jsou probírány možnosti a typy anotace (technická, strukturní, lingvistická) a prezentována specifika dat - jejich sběr a zpracování (psaná vs. mluvená forma).
Získané způsobilosti
Schopnost sestavit malý korpus jazykových datSchopnost interpretace korpusových datStudent bude schopen po absolvování kurzu sestavit a vyhodnotit vlastní malý korpus jazykových dat pro speciální účely. Kurz se zabývá problematikou tvorby malých korpusů pro jazykovědné a literárněvědné účely dle požadavků a kritérií definovaných sestavovatelem.
Literatura
Baker, P. - Hardie, A. - McEnery, T. A Glossary of Corpus Linguistics. Edinburgh 2006. McEnery, T.-Wilson, A. Corpus Linguistics. An Introduction. Edinburgh 2001. Kol. aut. Český národní korpus. Úvod a příručka uživatele. Praha, 2000. Wynne Martin (ed.). Developing Linguistic Corpora: A Guide to Good Practice. Oxford, 2005. Čermák, F. - Křen, M. (eds.). Frekvenční slovník češtiny. Praha, 2004. Čermák, F. (ed.). Frekvenční slovník mluvené češtiny. Praha 2007. Čermák, F. - Blatná, R. (eds.). Jak využívat Český národní korpus. Praha 2005. Šulc Michal. Korpusová lingvistika (první vstup). Praha 1999. Čermák, F. - Blatná, R. Korpusová lingvistika: Stav a modelové přístupy. Praha 2006. Šonková, J. Morfologie mluvené češtiny: Frekvenční analýza. Praha, 2008. Pražský akademický korpus (http://ufal.mff.cuni.cz/rest/CAC/doc/cac-guide/cz/html). Pražský závislostní korpus (http://ufal.mff.cuni.cz/pdt2.0/index-cz.html). Kol. aut. Průvodce českým akademickým korpusem 1.0. Praha, 2007. Čermák - Klímová - Petkevič. Studie z korpusové lingvistiky. Praha 2000. Ústav Českého národního korpusu (http://ucnk.ff.cuni.cz).
Požadavky
- aktivní práce v semináři- vypracovaný seminární projekt
Garant
PhDr. Petr Pořízka, Ph.D.