Jak Začít?

Máš v počítači zápisky z přednášek
nebo jiné materiály ze školy?

Nahraj je na studentino.cz a získej
4 Kč za každý materiál
a 50 Kč za registraci!




Předmět Řízení datové kvality (4IZ562)

Na serveru studentino.cz naleznete nejrůznější studijní materiály: zápisky z přednášek nebo cvičení, vzorové testy, seminární práce, domácí úkoly a další z předmětu 4IZ562 - Řízení datové kvality, Fakulta informatiky a statistiky, Vysoká škola ekonomická v Praze (VŠE).

Top 10 materiálů tohoto předmětu

Materiály tohoto předmětu

Materiál Typ Datum Počet stažení

Další informace

Obsah

1.Data Management (dotace 0/0) a.Vztah dat, informací, znalostí a moudrosti -- Pyramida (hierarchie) znalostí a její modifikovaná podoba dávající jednotlivým úrovním význam systémů pracujících s danou úrovní znalostíb.Klasifikace dat (kmenová, transakční , historická, metadata, strukturovaná, ...)c.Jednotlivé dimenze řízení dat podle DAMA, pozice řízení dat v rámci řízení IT/ICT (koncept ITGPM)d.Hierarchie řízení dat (Data Quality, Master Data Management, Data Governance, IT Governance)2.Řízení kvality dat (dotace 0/0) a.Příčiny vzniku nekvalitních datb.Důsledky nekvalitních dat, klasifikace nákladů na nekvalitní data (přímé ekonomické důsledky, reputační riziko, analytické důsledky - modifikovaná pyramida znalostí, dopad do metrik výkonnosti IT, dopad do metrik výkonnosti firmy, ...)c.Mapování příčin nekvalitních dat a důsledků pomocí tzv. Root-Cause metody3.Typické činnosti v rámci procesu řízení datové kvality (dotace 0/0) a.Profilace dat (využití popisných statistických metod a regulárních výrazů)b.Standardizace (aplikace standardizačních schémat a pravidel)c.Verifikace (využití regulárních výrazů, metod pro porovnávání řetězců a metod strojového učení)d.Doplňování chybějících záznamů -- ponechání status quo (stepwise, pairwise), databázové technky (lookup, join, merge), metody imputace nezaložené na modelu (midrange, Buckova metoda, nepodmíněný průměr, ...), metody imputace založené na modelu (hot-deck, cold-deck, nejbližší soused, GLM, rozhodovací stromy, neuronové sítě, ...)e.Unifikace / Deduplikace (využití metod pro porovnávání a shlukování záznamů, porovnávacích kódů, výběr nejlepšího kandidáta pro "přeživší záznam", fonetické algoritmy pro optimalizaci metod pro porovnávání záznamů, výkonnostní problémy metod pro porovnávání záznamů a jejich řešení)f.Obohacování dat o externí datové zdroje (význam dodatečné informace, využití externích dat pro verifikaci)g.Geokóding (zaměření adres s využitím registru UIR-ADR)h.Monitoring datové kvality (zjišťování odchylek od stanovených pravidel, zjišťování potenciálních námětů pro nová pravidla, příp. modifikaci stávajících)i.Vytváření QKB (Quality Knowledge Base) jako základní stavební kámen řízení datové kvalityj.Definice a implementace byznys pravidel4.Alternativní pohledy na proces řízení datové kvality (dotace 0/0)5.Modely pro datovou kvalitu (konceptuální, logický, IP-MAP) (dotace 0/0)6.Audit datové kvality -- alternativní přístupy / doporučení (dotace 0/0)7.Specifické formy datové kvality -- Real-time datová kvalita, kvalita metadat (dotace 0/0)8.Nástroje pro řízení datové kvality -- klasifikace nástrojů, na cvičeních praktické příklady užití. Pro výuku zamýšlím použít primárně volně dostupné nástroje firmy Talend. Jako doplňek k výuce uvažuji demonstraci funkcionality komerčních nástrojů (např. SAS Data Flux, Ataccama) (dotace 0/0)

Získané způsobilosti

Po úspěšném absolvování budou studenti schopni - Realizovat audit datové kvality - Realizovat nápravná opatření směřující ke zlepšení kvality dat - Rozumět vybraným základním metodám pro doplňování chybějících pozorování, verifikaci a porovnávání řetězců.

Literatura

TypAutorNázevMísto vydáníNakladatelRokISBNZDYCHÉ, J.The CRM handbook : a business guide to customer relationship management.Boston:Addison-Wesley, 2002.0-201-73062-6DBatini, Carlo, Scannapieco, Monica. Data Quality: Concepts, Methodologies and Techniques.Berlin: Springer-Verlag, 2006.ISBN 3-540-33172-7.DENGLISH, Larry P. Improving Data Warehouse and Business Information Quality: Methods for Reducing Costs and Increasing Profits. Wiley & Sons, 1999. xxvi, 518 s. ISBN-10 0-471-25383-9. DHerzog, T.N.,Scheuren, F.J., Winkler, W.E.Data Quality and Record Linkage Techniques. New York: Springer, 2007. ISBN 978-0-387-69502-0.DLOSHIN, D. The Practitioner’s Guide to Data Quality Improvement. Burlington: Morgan Kaufmann as inprint of Elsevier, 2011. ISBN 978-0-12-373717-5.DMcGILVRAY, D. Executing Data Quality Projects: Ten Steps to Quality Data and Trusted Information. Morgan Kaufmann, 2008. xviii, 325 s. ISBN 978-0-12-374369-5.DPIPINO, L., LEE, Y. W., WANG, R.Y. Data quality assessment. Communications of the ACM 45(4) (2002). 211-218.DREDMAN, T. Data Quality: The Field Guide. Boston: Butterworth-Heinemann MA, 2001. xviii, 241. ISBN-10 1-55558-251-6.DTutoriály a články na portálu www.dataquality.cz

Požadavky

žádné

Garant

prof. RNDr. Jan Rauch, CSc.

Vyučující

prof. RNDr. Jan Rauch, CSc.