Jak Začít?

Máš v počítači zápisky z přednášek
nebo jiné materiály ze školy?

Nahraj je na studentino.cz a získej
4 Kč za každý materiál
a 50 Kč za registraci!




Předmět Metody analýzy textových dat (MATD )

Na serveru studentino.cz naleznete nejrůznější studijní materiály: zápisky z přednášek nebo cvičení, vzorové testy, seminární práce, domácí úkoly a další z předmětu MATD - Metody analýzy textových dat, Vysoká škola báňská - Technická univerzita Ostrava (VŠB-TU).

Top 10 materiálů tohoto předmětu

Materiály tohoto předmětu

Materiál Typ Datum Počet stažení

Další informace

Cíl

Cílem předmětu je seznámit studenty se základními i pokročilými technikami analýzy textových dat. Po absolvovánípředmětu bude student schopen:popsat jednotlivé metody analýzy textových dat,porozumět těmto metodám,implementovat tyto metody, případně využít existující knihovny,začlenit tyto metody do vlastního návrhu analýzy konkrétních dat.

Osnova

Témata přednášek:1. Úvod do problematiky informačních systémů. Historie a vývoj vyhledávání v textech. Rozdíly mezi faktografickýmia dokumentografickými IS. Obecný model dokumentografických systému.2. Algoritmy pro přesné vyhledávání v textech. Algoritmy vyhledávání jednoho vzorku. Algoritmy vyhledávání vícevzorků (algoritmus Aho-Corasickové). Vyhledávání regulárních výrazů konečnými automaty. Algoritmy pro přibližnévyhledávání v textech.3. Sufixové stromy. DAWG. Patricia a podobné datové struktury. 4. Primární zpracování textů. Lexikální analýza. Stemming. Lematizace. Stop slova.5. Konstrukce indexových systémů. Zipfův zákon a odhad velikosti indexového systému. Indexování založené na třídění.Poziční indexové systémy. Metody vážení termů. TF-IDF váhy termů. Metody komprese indexových systémů. Metody kódovánípřirozených čísel.6. Dotazovací jazyky. Relevance dokumentu. Míra podobnosti dvojice dokument-dotaz. Relevance vs. podobnost. Strukturaa vyhodnocení dotazu. Booleovský DIS. Hodnocení dokumentografických systémů (přesnost, úplnost, F-míra).7. Signaturové metody. Řetězené a vrstvené kódování signatur. Efektivní vyhodnocení dotazů.8. Latentní sémantika. Metody redukce dimenze. Metody založené na rozkladu matic. Náhodná projekce. Vektorové DIS.Konstrukce a vyhodnocení vektorových dotazů. Ostatní typy DIS (rozšířené Booleovské). Indexování, struktura dotazů,vyhodnocení dotazů. 9. Vyhledávání na webu. Analýza hypertextových dokumentů, strukturální metody. PageRank a HITS. Metavyhledávánía kooperativní vyhledávání. Aplikace výpočetní inteligence a soft computingu ve zpracování a vyhledání textu.10. Metody automatické sumarizace: abstrakce a extrakce. Detekce a vývoj tématu. Analýza sentimentu, klasifikacea shlukování dokumentů.11. Paralelní a distribuované vyhledávání. Decentralizované a P2P vyhledávání.12. Semantické a kontextové vyhledávání, technologie Hummingbird, Snapshot (Satori), a Graph Search.Témata cvičení:1. Implementace algoritmů pro přesné vyhledávání v textu. Testování výkonnosti.2. Vyhledávání pomocí regulárních výrazů, implementace, využití open-source knihoven.3. Algoritmy pro přibližné vyhledávání v textu4. Využití sufixových stromů, DAWG. Konstrukce slovníků s těmito strukturami.5. Implementace lexikálního analyzátoru. Testování výkonnosti.6. Poziční indexové systémy. TF-IDF vážení termů.7. Metody komprese indexových systémů.8. Dotazování nad Boolovským DIS.9. Latentní sémantika. Výpočet SVD, NMF. Využití open-source knihoven. Náhodné projekce.10. Vektorový DIS.11. Výpočet PageRank.12. Shlukování dokumentů.Zápočet bude udělen za vypracování referátu na vybrané téma a jeho prezentaci na cvičení. Témata budou zveřejňovánapro každý akademický rok na webu přednášejícího.

Literatura

1. Kopecký M., Pokorný J.:Dokumentografické informační systémy, Karolinum 2006, ISBN 80246114812. Witten I. H., Moffat A., Bell T. C.: Managing Gigabytes (2nd ed.): Compressing and Indexing Documents and Images,Morgan Kaufmann Publishers Inc., 1999, ISBN 1-55860-570-3 3. Baeza-Yates R. A., Ribeiro-Neto B.: Modern Information Retrieval, Addison-Wesley Longman Publishing Co., Inc.,1999, ISBN 020139829X4. Feldman R., Sanger J.: The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data, CambridgeUniversity Press, 2006, ISBN 978-05218365795. Berry M. W., Kogan J.: Text Mining: Applications and Theory, Wiley, 2010, ISBN 978-04707498216. Weiss S. M., Indurkhya N., Zhang T.: Fundamentals of Predictive Text Mining, Springer, 2010, ISBN 978-18499622547. Langville, A. N. & Meyer, C. D. Google's PageRank and Beyond: The Science of Search Engine Rankings PrincetonUniversity Press, 20068. Manning, C. D.; Raghavan, P. & Schutze, H. Introduction to Information Retrieval, Cambridge University Press,20089. Korfhage, R. R. Information Storage and Retrieval, John Wiley & Sons, 1997

Požadavky

Žádné

Garant

doc. Mgr. Jiří Dvorský, Ph.D.

Vyučující

doc. Mgr. Jiří Dvorský, Ph.D.Ing. Jiří Hanzelka