Jak Začít?

Máš v počítači zápisky z přednášek
nebo jiné materiály ze školy?

Nahraj je na studentino.cz a získej
4 Kč za každý materiál
a 50 Kč za registraci!




Předmět Počítačová ling. a zprac. jaz. dat (KBH / PCLNG)

Na serveru studentino.cz naleznete nejrůznější studijní materiály: zápisky z přednášek nebo cvičení, vzorové testy, seminární práce, domácí úkoly a další z předmětu KBH / PCLNG - Počítačová ling. a zprac. jaz. dat, Filozofická fakulta, Univerzita Palackého v Olomouci (UP).

Top 10 materiálů tohoto předmětu

Materiály tohoto předmětu

Materiál Typ Datum Počet stažení

Další informace

Obsah

Budování korpusů zahrnuje kromě nutných filologických znalostí několik etap a oblastí technického rázu, jež budou v kurzu postupně probírány:(1) Formát: kódování znaků (ASCII, ANSI a Unicode) a formát dat (strukturovaný - XML vs. nestrukturovaný, tzv. plain text ".txt").(2) Anotace (= metadata): externí vs. interní: strukturně-obsahová a lingvistická.(3) Nástroje: příprava a zpracování (zabudování do korpusového manažeru); korpus a vytěžování dat (dotazovací jazyk, anotace). Pro tvorbu korpusů jsou užívány volně dostupné softwarové nástroje (freeware, GNU GPL či OpenSource projekty).(4) Možnosti automatizace procesu zpracování dat (segmentace: tokenizace a vertikála; konverze formátů ad.).(5) Metodologické hledisko: jsou důsledně rozlišována data vs. metadata.(6) Možnosti a typy anotace (technická, strukturní, lingvistická).Praktická cvičení(1) Sestavení vlastního korpusu:-- příprava dat: kódování, "čištění textu", konverze - formát .txt (prostý text)-- tokenizace a vertikalizace textu (využití softwarových aplikací)-- lingvistická anotace textu - lemmatizace, vytvoření tagsetu-- strukturace dat - značkování textu: jednoduchý XML formát-- finalizace korpusu a jeho uložení pod korpusový manažer Bonito(2) Práce s lingvistickými daty v různých korpusových aplikacích: GPL software (off-line) a webové rozhraní (on-line)

Získané způsobilosti

Schopnost sestavit malý korpus jazykových datSchopnost interpretace korpusových datStudent bude schopen po absolvování kurzu sestavit a vyhodnotit vlastní malý korpus jazykových dat pro speciální účely. Kurz se zabývá problematikou tvorby malých korpusů pro jazykovědné a literárněvědné účely dle požadavků a kritérií definovaných sestavovatelem.

Literatura

Křen, M. Dotazovací jazyk korpusového manažeru Bonito. Dostupné z http://www.korpus.cz/bonito/regular.php. Čermák, F. - Blatná, R. Korpusová lingvistika: Stav a modelové přístupy. Praha 2006. Kosek, J. - Kopřivová, M. Manuál korpusového manažeru Bonito. Dostupné z http://www.korpus.cz/bonito/index.php. Antonín Vitovský. Moderní slovník softwaru : výkladový anglicko-český a česko-anglický. AV Software Praha, 2006. ISBN 8090142885.Čermák - Klímová - Petkevič. Studie z korpusové lingvistiky. Praha 2000. Bradley, N. XML - kompletní průvodce. Praha, 2000. Kosek J. XML pro každého, podrobný průvodce. Grada Publishing, Praha, 2000. ISBN 8071698601.

Požadavky

(1) Pravidelná účast a aktivní práce v semináři (včetně plnění zadaných úkolů)(2) Úspěšně realizovaný seminární projekt

Garant

PhDr. Petr Pořízka, Ph.D.