Jak Začít?

Máš v počítači zápisky z přednášek
nebo jiné materiály ze školy?

Nahraj je na studentino.cz a získej
4 Kč za každý materiál
a 50 Kč za registraci!




Předmět Dolování znalostí z webu (4IZ470)

Na serveru studentino.cz naleznete nejrůznější studijní materiály: zápisky z přednášek nebo cvičení, vzorové testy, seminární práce, domácí úkoly a další z předmětu 4IZ470 - Dolování znalostí z webu, Fakulta informatiky a statistiky, Vysoká škola ekonomická v Praze (VŠE).

Top 10 materiálů tohoto předmětu

Materiály tohoto předmětu

Materiál Typ Datum Počet stažení

Další informace

Obsah

- Dolování z obsahu webu: indexování a vyhledávání dokumentů ve webovém prostředí – booleovský a vektorový model vyhledávání (shrnutí), indexování latentní sémantiky (LSI); uspořádání nalezených dokumentů; meta-vyhledávání, klasifikace a shlukování dokumentů, dolování asociací.- Aplikace metod zpracování přirozeného jazyka jako předzpracování dat v rámci dolování z obsahu webu: tokenizace, lemmatizace, rozpoznávání slovních druhů, desambiguace, povrchová syntaktická analýza atd.- Extrakci informací pomocí regulárních výrazů. Rozpoznávání pojmenovaných entit. Wrapperový přístup k extrakci informací vs. extrakce aktivovaná příznaky. Statistické modely pro extrakci informací.- Bootstrapping extrakčních vzorů na webu. Otevřená extrakce relací na webu. Využití Wikipedie pro dolování z webu. Extrakce informací pro zodpovídání dotazů.- Vztah dolování z webu a sémantického webu: sémantické anotování s mapováním na linked data, učení ontologií, sběr dat a vyhledávání na sémantickém webu.- Využívání struktury odkazů: primární procházení webu (crawling, spidering), analýza topologie odkazů, metody PageRank a HITS. Globální analýza webového grafu; analýza sociálních sítí na WWW.- Dolování z uživatelského chování na webu; internetový marketing.- Dolování z multimédií na webu.

Získané způsobilosti

Po úspěšném absolvování budou studenti schopni vytipovat v kontextu řešení určitého praktického nebo vědeckého problému vhodnou metodu automatického zpracování webových dat a zorientovat se v možném postupu její aplikace.

Literatura

TypAutorNázevMísto vydáníNakladatelRokISBNZSTROSSA, P.Počítačové zpracování přirozeného jazyka.Praha:Oeconomica, 2011.978-80-245-1777-3ZLIU, B.Web data mining : exploring hyperlinks, contents, and usage data.Berlin:Springer, 2007.978-3-540-37881-5DCIMIANO, P.Ontology learning and population from text : algorithms, evaluation and applications.New York:Springer, 2006.0-387-30632-3D(Povinná literatura:) Labský M., Svátek V.: Umělá inteligence VI. Kap. 6.: Automatické sémantické anotování a extrakce informací. Praha, Academia, vyjde 2013.

Požadavky

žádné

Garant

doc. Ing. Vojtěch Svátek, Dr.

Vyučující

doc. Ing. Vojtěch Svátek, Dr.