Předmět Vývoj počítačové lingvistiky (PLIN041)
Na serveru studentino.cz naleznete nejrůznější studijní materiály: zápisky z přednášek nebo cvičení, vzorové testy, seminární práce, domácí úkoly a další z předmětu PLIN041 - Vývoj počítačové lingvistiky, Filozofická fakulta, Masarykova univerzita (MU).
Top 10 materiálů tohoto předmětu
Materiály tohoto předmětu
Materiál | Typ | Datum | Počet stažení |
---|
Další informace
Cíl
Předmět nabízí seznámení s vývojem počítačové lingvistiky (PL) - discipliny orientované na zkoumání přirozeného jazyka a vycházející z použití algoritmických popisů jednotlivých jazykových rovin. Při tomto postupu je základem formální popis jazyka, který umožňuje budovat jednotlivé algoritmy a posléze je implementovat jako konkrétní programy a programové systémy.Postupy PL jsou obvykle založeny buď na pravidlovém přístupu, kdy jazykové jevy jsou popisovány pravidly formulovanými jako konkrétní implementovatelné algoritmy, nebo přístupu statistickém, v němž jsou jazykové jevy popisovány statistickými technikami, implementovanými jako programové nástroje.Počátky PL spadají do konce 50. let minulého století, kdy v USA a SSSR začaly pokusy se strojovým překladem (MT) mezi angličtinou a ruštinou (P. Toma) a ruštinou a francouzštinou (O. Kulagina). PL je svým způsobem i předchůdcem umělé inteligence.První pokusy se strojovým překladem nebyly hodnoceny jako dostatečně úspěšné (zpráva ALPAC, 1966), proto se pozornost badatelů obrátila k automatickému zpracování přirozeného jazyka jako obecnému problému spočívajícímu v počítačovém zpracování jazykových dat.V 60. letech byl vývoj PL paradoxně ovlivněn N. Chomským (1963), jehož výsledky v oblasti formálních gramatik, jazyků a hierarchie automatů vedly k pokusům vytvořit jak formální popisy jednotlivých jazykových rovin, tj. fonologie, morfologie a syntaxe, tak i k pokusům formulovat je v algoritmické podobě a verifikovat jako konkrétní implementace.V průběhu 60. let se ukázalo, že uvedené (introspektivní) přístupy nedostačují. Tak se objevily první velké soubory textů na počítačích - korpusy (Brown Corpus,Francis, Kučera, 1961).V 70. a 80. letech se pozornost badatelů postupně obracela k empirickému paradigmatu, což vedlo k budování dalších korpusů a nástrojů (korpusových manažerů) pro ně.Objevily se také aplikace jako korektory překlepů, různé typy elektronických slovníků a lexikálních databází.V 90. letech se staly standardem korpusy čítající kolem 100 mil. tokenů, např. BNC, u nás pak ČNK, resp. SYN2000.Po r. 2000 se v oblasti PL začala pozornost více orientovat na statistické techniky a přístupy opírající se o strojové učení. V návaznosti na velké soubory textů se objevil statistický strojový překlad (SMP), který umožnil získat relativně lepší výsledky než dosavadní systémy (Google Translator, 2007).V oblasti PL v současnosti (2010 ...) probíhá intenzivní výzkum automatické morfologické analýzy, syntaktických analyzátorů a sémantiky (zjednoznačňování významů slov - Word Sense Disambiguation - WSD). Pozornost se rovněž věnuje počítačové analýze emocí.Předmět má výrazně interdisciplinární povahu, propojuje v sobě přístupy lingvistické, počítačové a spadá do umělé inteligence a kognitivní vědy.Studenti v něm získají základní představu o problematice počítačové lingvistiky a o jejím vývoji v domácím i mezinárodním kontextu.
Osnova
1960 - pokusy se strojovým překladem. Na začátku 60. let - vznik počítačové lingvistiky (PL) jako disciplíny, formální popis rovin jazyka - morfologie, syntaxe, sémantiky, pragmatiky v podobě počítačových aplikací.V průběhu 60. let počátek textových korpusů. Typy korpusů,korpusové nástroje, značkování korpusových textů. Disambiguace,pravidlové a statistické systémy.70.-80. léta - výzkum morfologických struktur, notace, morfologickéalgoritmy a analyzátory, syntaktické analyzátory.90. léta -sémantická (lexikální) analýza, elektronické slovníky, lexikální databáze (WordNet, EuroWordNet, thesaury), nástroje pro práci s lexikálními zdroji.2000-10 - orientace na sémantickou analýzu věty využívající formalismu transparentní intenzionální logiky - normální translační algoritmus.2000-10 - nástroje pro rozpoznávání anaforických vztahů a koreference.Průběžně - programové nástroje pro práci s přirozeným jazykem - korektory překlepů, gramatické korektory, překladače.2000 - do současnosti - dialogové systémy - komunikace člověka se strojem. Nástroje pro reprezentaci znalostí v počítačích.Celkově - výklad zahrnuje PL v českém i mezinárodním kontextu.
Literatura
The Oxford handbook of computational linguistics. Edited by Ruslan Mitkov. Oxford: Oxford University Press, 2003. xx, 784 s. ISBN 0-19-823882-7. infoHAJIČOVÁ, Eva, Jarmila PANEVOVÁ a Petr SGALL. Úvod do teoretické a počítačové lingvistiky. Praha: Karolinum, 2002. 156 s. ISBN 80-246-0470-1. infoCHOMSKY, Noam. Syntaktické struktury : logický základ teorie jazyka : o pojmu "gramatické pravidlo" : Syntactic structures (Orig.). Vyd. 1. Praha: Academia, 1966. 209 s. info
Garant
doc. PhDr. Zdeňka Hladká, Dr.
Vyučující
Mgr. Dana Hlaváčková, Ph.D.