Předmět Zpracování řeči (FEKT-MZPR)
Na serveru studentino.cz naleznete nejrůznější studijní materiály: zápisky z přednášek nebo cvičení, vzorové testy, seminární práce, domácí úkoly a další z předmětu FEKT-MZPR - Zpracování řeči, Fakulta elektrotechniky a komunikačních technologií, Vysoké učení technické v Brně (VUT).
Top 10 materiálů tohoto předmětu
Materiály tohoto předmětu
Materiál | Typ | Datum | Počet stažení |
---|
Další informace
Cíl
Cílem je poskytnout ucelený pohled na systémy řečové komunikace v informačních a telekomunikačních systémech. Je určen studentům, kteří si chtějí osvojit základní a pokročilé techniky analýzy, kódování, syntézy a vodoznačení řeči. Mimo základních principů ověřování mluvčího se studenti seznámí s problematikou jednokanálové a vícekanálové separace řeči z hlučného pozadí a principy automatického rozpoznávání řeči. Kromě toho studenti budou v počítačových laboratořích analyzovat řečový signál v reálném čase.
Osnova
1. Verbální komunikace mezi lidmi, hlasové ústrojí člověka, formanty, antiformanty, parametrický model řeči. Akustické vlastnosti samohlásek a souhlásek. Proces slyšení a sluchové pole, práh slyšení, hladina hlasitosti, výška zvuku. Maskování a zkreslení slyšení, kritická šířka pásma. Binaurální slyšení.2. Oblasti zpracování řečového signálu. Přehled segmentálních parametrů a suprasegmentáních parametrů. Předzpracování řeči, segmentace, využití oken a preemfáze. Úzkopásmový a širokopásmový spektrogram, krátkodobá energie, Lineární predikční analýza, modelování hlasového traktu pomocí LPC koeficientů. Percepční lineární predikční koeficienty. Kepstrální analýza, komplexní a reálné kepstrum, melovské spektrální a kepstrální koeficienty.3. Signál základního tónu řeči (ZT), základní kmitočet a základní perioda, jitter, shimmer. Přehled metod stanovení parametrů ZT řeči, porovnání metod určení ZT řeči.4. Rozpoznávání vzoru, extrakce příznaků, redukce příznaků, klasifikace. Algoritmus borcení časové osy (DTW). Míra podobnosti, absolutní rozdíl, Eukleidova míra, Mahalanobisova míra, Itakurova míra. K-means algoritmus. Logopedické signály, učící systémy pro odstranění vad. Analýza biologických signálů pro rozpoznání a léčení různých nemocí, které jsou diagnostikovány na základě lidské promluvy (Parkinsonova choroba apod.). 5. Bayesovská klasifikace, neuronové sítě, smíšené Gaussovy modely, podpůrné vektory SVM, skryté Markovovy procesy. Slovní a větná prozodie, mikroprozodie. Parametry prosodie: průběh základního tónu, intenzita a tempo. Fujisakiho model, statistické a LPC modelování. Fonetické modelování podle pravidel (melodémy).6. Zvukové ukázky, historie vývoje. Tvorba inventáře řečových jednotek. Syntéza řeči v časové oblasti a v kmitočtové oblasti. Modelování hlasového traktu (LP model, kepstrální model, harmonický model). Aproximace funkce exp(x). Syntéza TTS, předzpracování textu, fonetická transkripce, nastavení prozodie.7. Kódování tvaru vlny. Zdrojové kódování. Přenosové systémy se změnou přenosové rychlosti WMR-WB a AMR-WB. Přenos řeči pomocí internetu VoIP.8. Metoda spektrálního odečítání, metody RASTA, metoda mapování spektrogramu. Detektory řečové aktivity. Využití vlnkové transformace a bank číslicových filtrů. Adaptivní LMS filtry. Koktail-party efekt. Metoda tvarování přijímací charakteristiky. Metoda separace zdrojů naslepo, nedourčená, určená a přeurčená separace. Základní princip metody analýzy nezávislých komponent ICA a metody analýzy řídkých komponent SCA.9. Systém pro rozpoznávání emocí z řeči. Výpočet a redukce příznaků. Klasifikace emocí. Systém pro rozpoznávání emocí ze statických obrazů a videa.10. Hodnocení kvality, srozumitelnosti, přirozenosti a přijatelnosti řeči. Rozdělení objektivních a subjektivních metod. Nominální, pořadová, intervalová a poměrová škála. Větné, slovní, rýmové, logatomové testy, měření odstupu signálu od šumu. Databáze řečových nahrávek, jejich členění a typy. Metoda PESQ a PSQM.11. Ochrana dat a databází, obecné schéma kodéru a dekodéru vodoznačení. Nevnímatelnost, robustnost a vytížení kodéru. Maskování v časové a ve spektrální oblasti. 12. Modulační spektrum, bispektrum, bikepstrum, metody hodnotící kvalitu řeči, příznaky odvozené z EMD, příznaky odvozené z DTWT atd.
Literatura
UHLÍŘ, J. SOVKA, P.: Digital Signal Processing (Číslicové zpracování signálů), ČVUT, Praha, 1995. (In Czech)PSUTKA, J.: Komunikace s počítačem mluvenou řečí. ACADEMIA, Praha 1995. ISBN 80-200-0203-0O'SHAUGNESSY, D., LI DENG: Speech Processing-A Dynamic Optimization-Oriented Approach. Marcel Dekker, New York, 2003. ISBN 0-8247-4040-8QUATIERI, T.F.: Discrete-Time Speech Signal Processing-Principles and Practice. Prentice Hall, NJ 2002. ISBN 0-13-242942-XDELLER, J.R., HANSEN, J.H.L., PROAKIS, J.G.: Discrete-Time Processing of Speech Signals. John Wiley, New York, 2000. ISBN 0-7803-5386-2
Požadavky
Jsou požadovány znalosti na úrovni bakalářského studia. Dále je požadována znalost metod a algoritmů číslicového zpracování signálu. Navíc studenti musí umět programovat v prostředí Matlab.
Garant
prof. Ing. Zdeněk Smékal, CSc.
Vyučující
prof. Ing. Zdeněk Smékal, CSc.