Předmět Dobývání znalostí (NDBI023)
Na serveru studentino.cz naleznete nejrůznější studijní materiály: zápisky z přednášek nebo cvičení, vzorové testy, seminární práce, domácí úkoly a další z předmětu NDBI023 - Dobývání znalostí, Matematicko-fyzikální fakulta, Univerzita Karlova v Praze (UK).
Top 10 materiálů tohoto předmětu
Materiály tohoto předmětu
Materiál | Typ | Datum | Počet stažení |
---|
Další informace
Cíl
Naučit základní metody dobývání znalostí z dat.
Sylabus
1. Úvod do problematiky dobývání znalostí Motivace a význam dobývání znalostí v praxi, přehled základních úloh z oblasti dobývání znalostí. Metodiky pro řešení úloh z oblasti dobývání znalostí. Základní principy databázových systémů, datových skladů a technologie OLAP (On-Line Analytical Processing), konstrukce datových krychlí, příklady dotazů pro dobývání znalostí. 2. Základní paradigmata procesu dobývání znalostí Pořizování, příprava a předzpracování dat - vzorkování, variabilita a věrohodnost, diskretizace numerických atributů a zpracování nenumerických proměnných, náhrada chybějících a prázdných hodnot, řadové proměnné. Transformace, redukce a čištění dat - vztahy mezi veličinami (testování hypotéz, korelační, regresní, diskriminační a shluková analýza). Základní principy strojového učení - učení s učitelem, samoorganizace, částečně řízené učení (semi-supervised learning), trénovací, testovací a validační množina, generalizace a přeučení, Occamova břitva. Vyhodnocování získaných výsledků - křížová validace, celková správnost, matice záměn, křivka učení, křivka navýšení a křivka ROC, kombinování modelů (bagging, boosting). 3. Metody pro dobývání asociačních pravidel Analýza nákupního košíku - časté položky, asociační pravidla, jejich formulace a základní charakteristiky. Generování kombinací - algoritmus apriori, techniky "nárůstu častých vzorů" (FP-Growth a TD-FP-Growth), kombinační analýza dat. Vyhledávání zajímavých pravidel pomocí omezeného dobývání (specifikace časových údajů, položek ap.). 4. Metody pro klasifikaci a predikci dat Rozhodovací stromy a jejich indukce - algoritmy ID3, C4.5, CART a CHAID. Bayesovské modely - Bayesovské klasifikátory, Bayesovské sítě a techniky pro jejich učení a inferenci. Přírodou inspirované modely - umělé neuronové sítě perceptronového typu, SVM-stroje, ELM-sítě, genetické algoritmy. Metody založené na analogii - učení založené na instancích, klasifikace podle nejbližšího souseda, případové usuzování. 5. Metody pro klastrovou analýzu k-means algoritmus, volba vhodné metriky, vyhodnocení výsledků (klastrová validita), reprezentace a vizualizace detekovaných klastrů. Klastrování založené na principu fuzzy množin (FCM-algoritmus), neuronový přístup a hierarchické klastrování. 6. Sociální sítě a jejich analýza Sociální sítě - jejich reprezentace a vlastnosti, SF-sítě, analýza linků a algoritmy PageRank a HITS. Aplikace - detekce komunit, evoluce v sociálních sítích, predikce linků a analýza sentimentu.
Literatura
Aggarwal C. C. (Ed.): Social Network Data Analytics, Springer, 2011Aggarwal C. C.: Data Mining: The Textbook, Springer, 2015Berka P.: Dobývání znalostí z databází, Academia, 2003Berry M. J. A., Linoff G.: Data Mining Techniques for Marketing, Sales, and Customer Support, John Wiley & Sons, Inc., 1997Liu B.: Web Data Mining, Springer, 2007Murphy K. P.: Machine Learning: A Probabilistic Perspective, The MIT Press, 2012
Garant
doc. RNDr. Iveta Mrázová, CSc.