Jak Začít?

Máš v počítači zápisky z přednášek
nebo jiné materiály ze školy?

Nahraj je na studentino.cz a získej
4 Kč za každý materiál
a 50 Kč za registraci!




Předmět Soutěžní strojový překlad (NPFL101)

Na serveru studentino.cz naleznete nejrůznější studijní materiály: zápisky z přednášek nebo cvičení, vzorové testy, seminární práce, domácí úkoly a další z předmětu NPFL101 - Soutěžní strojový překlad, Matematicko-fyzikální fakulta, Univerzita Karlova v Praze (UK).

Top 10 materiálů tohoto předmětu

Materiály tohoto předmětu

Materiál Typ Datum Počet stažení

Další informace

Sylabus

Na semináři budeme vylepšovat systémy strojového překladu (zejm. překlad do češtiny) a účastnit se s nimi každoroční soutěže v překládání, http://www.statmt.org/wmt12/. S naším systémem se pravidelně řadíme na přední příčky této soutěže, za Google Translate, ale bezpečně před české komerční systémy.Statistický strojový překlad je úloha náročná zejména z hlediska objemu zpracovávaných dat. Zcela běžně se proto pracuje paralelně na desítkách počítačů a není problém na jeden experiment účelně využít 100 GB disku a 100 GB RAM. S malým modelem však může stejný software překládat i na OLPC (One Laptop per Child).V maximální míře se opřeme o existující nástroje, které jsou implementovány ve směsici jazyků jako Perl, C/C++, Bash, Python, Java. Právě proto bych rád na semináři uvítal i ryzí softwarové inženýry, i zcela bez znalosti či zájmu o počítačovou lingvistiku.Během semestru budeme kolektivně vylepšovat volně šiřitelnou implementaci trénování i samotného překladu. Kromě hračkových modelů, které je možné připravovat i spouštět na jednotlivých počítačích v labu se pokusíme v labu vytvořit provizorní cluster a počítat paralelně. Určité úsilí budeme muset věnovat i diskovému prostoru, abychom jej dokázali efektivně (a paralelně) využívat, aniž bychom příliš zatížili síť. Zájemci o počítačové zpracování přirozeného jazyka se zaměří na návrh triků a úprav modelů pro lepší kvalitu překladu, ostatní pomohou s infrastrukturou a případně i s optimalizací existujících nástrojů.Seminář předpokládá pouze středoškolské znalosti formálního popisu přirozených jazyků.Seminář bude probíhat v unixové laboratoři.

Literatura

Chris Callison-Burch, Philipp Koehn, Christof Monz and Omar Zaidan: Findings of the 2011 Workshop on Statistical Machine Translation. EMNLP 2011 Workshop on Statistical Machine Translation. Edinburgh.http://www.statmt.org/wmt11/Philipp Koehn: Statistical Machine Translation. Cambridge University Press. ISBN: 978-0521874151, 2009.Philipp Koehn, Hieu Hoang, Alexandra Birch, Chris Callison-Burch, Marcello Federico, Nicola Bertoldi, Brooke Cowan, Wade Shen, Christine Moran, Richard Zens, Chris Dyer, Ondrej Bojar, Alexandra Constantin, Evan Herbst: Moses: Open Source Toolkit for Statistical Machine Translation, Annual Meeting of the Association for Computational Linguistics (ACL), demonstration session, Prague, Czech Republic, June 2007.http://www.statmt.org/moses/Philipp Koehn, Marcello Federico, Wade Shen, Nicola Bertoldi, Ondřej Bojar, Chris Callison-Burch, Brooke Cowan, Chris Dyer, Hieu Hoang, Richard Zens, Alexandra Constantin, Christine Moran, and Evan Herbst: Open Source Toolkit for Statistical Machine Translation: Factored Translation Models and Confusion Network Decoding. Technical report, Johns Hopkins University, Center for Speech and Language Processing, 2006.http://ufal.mff.cuni.cz/~bojar/publications/2006-FILE-koehn_etal_jhuws_2006-2006-jhu-report.pdf

Garant

RNDr. Ondřej Bojar, Ph.D.