Předmět Tvorba korpusů (KBH / VSJ21)
Na serveru studentino.cz naleznete nejrůznější studijní materiály: zápisky z přednášek nebo cvičení, vzorové testy, seminární práce, domácí úkoly a další z předmětu KBH / VSJ21 - Tvorba korpusů, Filozofická fakulta, Univerzita Palackého v Olomouci (UP).
Top 10 materiálů tohoto předmětu
Materiály tohoto předmětu
Materiál | Typ | Datum | Počet stažení |
---|
Další informace
Obsah
Budování korpusů zahrnuje kromě nutných filologických znalostí několik etap a oblastí technického rázu, jež budou v kurzu postupně probírány: (1) Formát: kódování znaků (ASCII, ANSI a Unicode) a formát dat (strukturovaný - XML vs. nestrukturovaný, tzv. plain text ".txt"). (2) Anotace (= metadata): externí vs. interní: strukturně-obsahová a lingvistická. (3) Nástroje: příprava a zpracování (zabudování do korpusového manažeru); korpus a vytěžování dat (dotazovací jazyk, anotace). Pro tvorbu korpusů jsou užívány volně dostupné softwarové nástroje (freeware, GNU GPL či OpenSource projekty); pozornost je věnována i možnostem automatizace procesu zpracování dat (segmentace: tokenizace a vertikála; konverze formátů ad.). Z metodologického hlediska jsou důsledně rozlišována data vs. metadata, dále jsou probírány možnosti a typy anotace (technická, strukturní, lingvistická) a prezentována specifika dat - jejich sběr a zpracování (psaná vs. mluvená forma). Součástí semináře budou tzv. seminární projekty.
Získané způsobilosti
Schopnost sestavit malý korpus jazykových datSchopnost interpretace korpusových datStudent bude schopen po absolvování kurzu sestavit a vyhodnotit vlastní malý korpus jazykových dat pro speciální účely. Kurz se zabývá problematikou tvorby malých korpusů pro jazykovědné a literárněvědné účely dle požadavků a kritérií definovaných sestavovatelem.
Literatura
Baker, P. - Hardie, A. - McEnery, T. A Glossary of Corpus Linguistics. Edinburgh 2006. McEnery, T.-Wilson, A. Corpus Linguistics. An Introduction. Edinburgh 2001. Wynne Martin (ed.). Developing Linguistic Corpora: A Guide to Good Practice. Oxford, 2005. Čermák, F. - Blatná, R. Korpusová lingvistika: Stav a modelové přístupy. Praha 2006. Čermák - Klímová - Petkevič. Studie z korpusové lingvistiky. Praha 2000.
Požadavky
(1) Pravidelná účast a aktivní práce v semináři (včetně plnění zadaných úkolů)(2) Úspěšně realizovaný seminární projekt
Garant
PhDr. Petr Pořízka, Ph.D.