Předmět Dolování z webu (4IZ550)
Na serveru studentino.cz naleznete nejrůznější studijní materiály: zápisky z přednášek nebo cvičení, vzorové testy, seminární práce, domácí úkoly a další z předmětu 4IZ550 - Dolování z webu, Fakulta informatiky a statistiky, Vysoká škola ekonomická v Praze (VŠE).
Top 10 materiálů tohoto předmětu
Materiály tohoto předmětu
Materiál | Typ | Datum | Počet stažení |
---|
Další informace
Obsah
* Přehled hlavních okruhů metod dolování z webu: dolování z obsahu webu (Web Content Mining), ze struktury webu (Web Structure Mining) a z uživatelského chování na webu (Web Usage Mining)* Přehled praktických aplikací založených na dolování z webu* Dolování z obsahu webu: indexování a vyhledávání dokumentů (Information Retrieval) ve webovém prostředí -- booleovský a vektorový model vyhledávání, indexování latentní sémantiky (LSI); uspořádání nalezených dokumentů; meta-vyhledávání* Dolování z obsahu webu: kategorizace a shlukování webových dokumentů* Aplikace metod zpracování přirozeného jazyka při dolování z webu: lemmatizace, rozpoznávání slovních druhů, desambiguace, povrchová syntaktická analýza atd.* Využívání struktury odkazů: primární procházení webu (crawling, spidering), analýza topologie odkazů, metody PageRank a HITS* Globální analýza webu; analýza sociálních sítí na WWW* Dolování z uživatelského chování na webu; internetový marketing* Extrakce informací jako specifický typ dolování z obsahu webu: wrapperový přístup vs. extrakce aktivovaná příznaky* Specifické aplikace: dolování názorů ("opinion mining") vs. dolování faktů ("fact mining"); analýza webového spamu; komparativní nakupování; atd.* Integrace informací získaných z WWW, využití mapování schémat* Vztah dolování z webu a technologií sémantického webu: automatické sémantické anotování, učení ontologií, vyhledávání na sémantickém webu
Získané způsobilosti
Po úspěšném absolvování budou studenti schopni vytipovat v kontextu určité aplikace vhodnou metodu automatického zpracování webových dat a zorientovat se v možném postupu její aplikace.
Literatura
TypAutorNázevMísto vydáníNakladatelRokISBNZSTROSSA, P.Vybrané kapitoly z počítačového zpracování přirozeného jazyka.Opava:Slezská universita, 2000.8072480413ZLIU, B.Web data mining : exploring hyperlinks, contents, and usage data.Berlin:Springer, 2007.978-3-540-37881-5DCIMIANO, P.Ontology learning and population from text : algorithms, evaluation and applications.New York:Springer, 2006.0-387-30632-3
Požadavky
Minimálně 15 bodů z prezentace, minimálně 35 bodů ze závěrečného testu
Garant
doc. Ing. Vojtěch Svátek, Dr.
Vyučující
doc. Ing. Vojtěch Svátek, Dr.