Jak Začít?

Máš v počítači zápisky z přednášek
nebo jiné materiály ze školy?

Nahraj je na studentino.cz a získej
4 Kč za každý materiál
a 50 Kč za registraci!




Předmět Počítačové zpracování ling.dat (KBH / VPOC)

Na serveru studentino.cz naleznete nejrůznější studijní materiály: zápisky z přednášek nebo cvičení, vzorové testy, seminární práce, domácí úkoly a další z předmětu KBH / VPOC - Počítačové zpracování ling.dat, Filozofická fakulta, Univerzita Palackého v Olomouci (UP).

Top 10 materiálů tohoto předmětu

Materiály tohoto předmětu

Materiál Typ Datum Počet stažení

Další informace

Obsah

Budování korpusů zahrnuje kromě nutných filologických znalostí několik etap a oblastí technického rázu, jež budou v kurzu postupně probírány:(1) Formát: kódování znaků (ASCII, ANSI a Unicode) a formát dat (strukturovaný - XML vs. nestrukturovaný, tzv. plain text ".txt").(2) Anotace (= metadata): externí vs. interní: strukturně-obsahová a lingvistická.(3) Nástroje: příprava a zpracování (zabudování do korpusového manažeru).Korpus a vytěžování dat: V kurzu budou představeny možnosti dotazovacího jazyka CQL (Corpus Query Language), vybrané metody kvantitativní lingvistiky, jež umožňují vyhodnocování dat prostřednictvím statistických testů. Tematizovány budou regulární výrazy (jazyka CQL) a využití XML anotace při vytěžování dat; z hlediska lingvistické statistiky zejm. frekvenční distribuce (četnost výskytu), tvorba frekvenčního slovníku, absolutní :: relativní :: normalizované frekvence; statistické metody a nástroje v korpusových manažerech a programech (MI-score, t-score, Z-score...), testy statistické významnosti při testování statistických hypotéz (zejm. test dobré shody, tzv. chí-kvadrát, Studentův t-test...). Součástí kurzu bude i základní zpracování číselných dat (Excel, příp. dílčí specializované aplikace).Součástí semináře budou tzv. seminární projekty.

Získané způsobilosti

Schopnost sestavit malý korpus jazykových datSchopnost interpretace korpusových datStudent bude schopen po absolvování kurzu sestavit a vyhodnotit vlastní malý korpus jazykových dat pro speciální účely. Kurz se zabývá problematikou tvorby malých korpusů pro jazykovědné a literárněvědné účely dle požadavků a kritérií definovaných sestavovatelem.

Literatura

Baker, P. - Hardie, A. - McEnery, T. A Glossary of Corpus Linguistics. Edinburgh, 2006. McEnery, T. - Wilson, A. Corpus Linguistics. An Introduction. Edinburgh, 2001. Wynne Martin (ed.). Developing Linguistic Corpora: A Guide to Good Practice. Oxford, 2005. Křen, M. Dotazovací jazyk korpusového manažeru Bonito. Čermák, F. - Blatná, R. Korpusová lingvistika: Stav a modelové přístupy. Praha, 2006. Těšitelová, M. Kvantitativní lingvistika. Praha, 1987. Kosek, J. - Kopřivová, M. Manuál korpusového manažeru Bonito. Těšitelová, M. Otázky lexikální statistiky. Praha, 1974. Volín, J. Statistické metody ve fonetickém výzkumu. Praha, 2007. Čermák - Klímová - Petkevič. Studie z korpusové lingvistiky. Praha, 2000. Těšitelová, M. Využití statistických metod v gramatice. Praha, 1980. Bradley, N. XML - kompletní průvodce. Praha, 2000. Kosek, J. XML pro každého, podrobný průvodce. Praha, 2000.

Požadavky

(1) Pravidelná účast a aktivní práce v semináři (včetně plnění zadaných úkolů)(2) Úspěšně realizovaný seminární projekt

Garant

PhDr. Petr Pořízka, Ph.D.