Jak Začít?

Máš v počítači zápisky z přednášek
nebo jiné materiály ze školy?

Nahraj je na studentino.cz a získej
4 Kč za každý materiál
a 50 Kč za registraci!




Předmět Úvod do korpusové lingvistiky a počítačové lexikografie (IB047)

Na serveru studentino.cz naleznete nejrůznější studijní materiály: zápisky z přednášek nebo cvičení, vzorové testy, seminární práce, domácí úkoly a další z předmětu IB047 - Úvod do korpusové lingvistiky a počítačové lexikografie, Fakulta informatiky, Masarykova univerzita (MU).

Top 10 materiálů tohoto předmětu

Materiály tohoto předmětu

Materiál Typ Datum Počet stažení

Další informace

Cíl

Cílem předmětu je seznámit studenty: ;- se základy korpusové lingvistiky a počítačové lexikografie;- s typy korpusů podle účelů, k nimž jsou určeny;- s technikami budování korpusů z webu;- s nástroji pro práci s korpusy, zejména korpusovými manažery;- korpusový manažer Manatee/Bonito a jeho vazby na další nástroje;- s technikami zpracování korpusových dat, tj. s různými typy nástrojů pro značkování (morfologické, syntaktické, sémantické);- s nástroji pro desambiguaci - pravidlovými, statistickými;- se zpracováním kontextů a nástroji, které to umožňují - Word Sketch Engine;- s tvořením sémantických shluků a thesaurů;Dále se studenti naučí pracovat: ;- s korpusovými daty v rámci počítačové lexikografie;- s principy tvorby elektronických slovníků;- s nástroji pro budování elektronických slovníků a práci s nimi;- platforma DEB II, Visdic, DebVisDic;- experimentálně s vlastními vzorky korpusů;

Osnova

Informační technologie a jazykové korpusy;Počátky korpusové lingvistiky, význam korpusů;Korpusová data, typy korpusů a standardizace, SGML, XML, TEI, CES;Anotované korpusy a značkování;Základní úroveň značkování -- metastruktura textu;Gramatické značkování na úrovni slovních druhů;Syntaktické značkování na úrovni větných struktur;Paralelní korpusy a jejich využití;Nástroje pro automatické a poloautomatické značkování, desambiguace;Budování korpusů z webu, údržba korpusů;Programy pro tvorbu konkordancí;Korpusové nástroje: korpusový manažer Manatee/Bonito aj.;Statistické parametry (absolutní, relativní četnosti, MI, T-score);Práce s atributy a značkami (tagy);Využití korpusů a korpusových dat;Ukázky práce s korpusem -- ČNK, SUSANNE, Pražský závislostní korpus;Zpracování kontextů a kolokací (slovních spojení);Nástroj pro práci s kontexty - Word Sketch Engine;Počítačová lexikografie;Typy elektronických slovníků;Nástroje pro počítačovou lexikografii - platforma DEB II;Lexikografické stanice;

Literatura

SAMPSON, Geoffrey. English for the computer :the SUSANNE corpus and analytic scheme. Oxford: Clarendon Press, 1995. ix, 499 s. ISBN 0-19-824023-6. infoRYCHLÝ, Pavel. Korpusové manažery a jejich efektivní implementace. Brno, 2000. xiv, 128 s. infoComputational lexicography for natural language processing. Edited by Ted Briscoe - Bran Boguraev. London: Longman, 1989. xiv, 310 p. ISBN 0-470-21187-3. infoSAMPSON, Geoffrey. Empirical linguistics. London: Continuum, 2001. viii, 226. ISBN 0-8264-4883-6. infoCorpus processing for lexical acquisition. Edited by Bran Boguraev - J. (James) Pustejovsky. Cambridge: Bradford Book, 1996. xi, 245 s. ISBN 0-262-02392-X. info

Garant

doc. RNDr. Aleš Horák, Ph.D.

Vyučující

Mgr. Pavel Rychlý, Ph.D.doc. PhDr. Karel Pala, CSc.