Jak Začít?

Máš v počítači zápisky z přednášek
nebo jiné materiály ze školy?

Nahraj je na studentino.cz a získej
4 Kč za každý materiál
a 50 Kč za registraci!




Předmět Tvorba korpusů (KBH / VSJ21)

Na serveru studentino.cz naleznete nejrůznější studijní materiály: zápisky z přednášek nebo cvičení, vzorové testy, seminární práce, domácí úkoly a další z předmětu KBH / VSJ21 - Tvorba korpusů, Filozofická fakulta, Univerzita Palackého v Olomouci (UP).

Top 10 materiálů tohoto předmětu

Materiály tohoto předmětu

Materiál Typ Datum Počet stažení

Další informace

Obsah

Budování korpusů zahrnuje kromě nutných filologických znalostí několik etap a oblastí technického rázu, jež budou v kurzu postupně probírány: (1) Formát: kódování znaků (ASCII, ANSI a Unicode) a formát dat (strukturovaný - XML vs. nestrukturovaný, tzv. plain text ".txt"). (2) Anotace (= metadata): externí vs. interní: strukturně-obsahová a lingvistická. (3) Nástroje: příprava a zpracování (zabudování do korpusového manažeru); korpus a vytěžování dat (dotazovací jazyk, anotace). Pro tvorbu korpusů jsou užívány volně dostupné softwarové nástroje (freeware, GNU GPL či OpenSource projekty); pozornost je věnována i možnostem automatizace procesu zpracování dat (segmentace: tokenizace a vertikála; konverze formátů ad.). Z metodologického hlediska jsou důsledně rozlišována data vs. metadata, dále jsou probírány možnosti a typy anotace (technická, strukturní, lingvistická) a prezentována specifika dat - jejich sběr a zpracování (psaná vs. mluvená forma). Součástí semináře budou tzv. seminární projekty.

Získané způsobilosti

Schopnost sestavit malý korpus jazykových datSchopnost interpretace korpusových datStudent bude schopen po absolvování kurzu sestavit a vyhodnotit vlastní malý korpus jazykových dat pro speciální účely. Kurz se zabývá problematikou tvorby malých korpusů pro jazykovědné a literárněvědné účely dle požadavků a kritérií definovaných sestavovatelem.

Literatura

Baker, P. - Hardie, A. - McEnery, T. A Glossary of Corpus Linguistics. Edinburgh 2006. McEnery, T.-Wilson, A. Corpus Linguistics. An Introduction. Edinburgh 2001. Wynne Martin (ed.). Developing Linguistic Corpora: A Guide to Good Practice. Oxford, 2005. Čermák, F. - Blatná, R. Korpusová lingvistika: Stav a modelové přístupy. Praha 2006. Čermák - Klímová - Petkevič. Studie z korpusové lingvistiky. Praha 2000.

Požadavky

(1) Pravidelná účast a aktivní práce v semináři (včetně plnění zadaných úkolů)(2) Úspěšně realizovaný seminární projekt

Garant

PhDr. Petr Pořízka, Ph.D.