Předmět Algoritmy rozpoznávání mluvené řeči (NPFL079)
Na serveru studentino.cz naleznete nejrůznější studijní materiály: zápisky z přednášek nebo cvičení, vzorové testy, seminární práce, domácí úkoly a další z předmětu NPFL079 - Algoritmy rozpoznávání mluvené řeči, Matematicko-fyzikální fakulta, Univerzita Karlova v Praze (UK).
Top 10 materiálů tohoto předmětu
Materiály tohoto předmětu
Materiál | Typ | Datum | Počet stažení |
---|
Další informace
Sylabus
Přehled řečových technologií nesamozřejmosti hlasové komunikace, hlavní aplikace oboru a jejich architektura, použité teorie a modely, programátorské nástroje a knihovny, knihy a časopisy řečových technologií.Modelování akustiky (SPO C8-C9 | JEL C2-C3 | PSU C5.3, částečně opakování z PFL038) struktura a parametry skrytých Markovových modelů(HMM), vyhodnocení skóre promluvy (Viterbi algoritmus), trénování parametrů HMM (Baum-Welch algoritmus), získání příznaků řeči, ohodnocení akustických příznaků (MFCC, složené gausiány, shlukování parametrů), adaptace modelů na mluvčího (MAP, MLLR), míra důvěryhodnosti rozpoznávání (confidence measure), softwarové nástroje rozpoznávání mluvené řeči (HTK Tools, EST).Modelování jazyka (PFL067 | JEL C4 | SPO C11 | PSU 5.4) metody statistického modelování jazyka, n-gramy, vyhlazování modelů (Good-Turing, Katz), adaptační jazykové modely, strukturované jazykové modely (PCFG), odlišnosti modelování mluveného a psaného jazyka, transducery a softwarové nástroje jazykového modelování (AT&T FSM Library, SRI LM Toolkit). Základní dekódovací techniky (SPO C12 | JEL C5-C6 | PSU C6) prohledávací algoritmy řeči (stavové prostory a heuristiky), kombinace akustiky a jazykového modelu (uni-, bi-, trigramy), časově synchronní prohledávání (Viterbi, prořezávání, lexikální stromy), stavově synchronní prohledáván, grafové modely (GMTK: The Graphical Models Toolkit).Algoritmy rozpoznávání pro rozsáhlé slovníky (SPO C13 | JEL C5-C6 | PSU 6.7.3, 6.7.5, 6.10) efektivní manipulace lexikálního stromu, seznam N-nejlepších hypotéz a víceprůchodová strategie, AT&T GRM Library, AT&T DCD Library.Hlasové dialogové systémy (SPO C17 | PSU C11) charakteristiky spontánních dialogů, prosodie a struktura dialogu, sémantická representace, řízení dialogu, detekce emocí, Voice XML.Identifikace řečníka (PSU C9) typy systémů, vybrané charakteristiky řeči pro rozpoznávání řečníka, základní přístupy.Na cvičení budou představovány a používány softwarové nástroje a knihovny v návaznosti na probíraná témata.
Literatura
[JEL] F. Jelinek, Statistical Methods for Speech Recognition, MIT Press, 1998[PSU] J. Psutka, L. Müller, J. Matoušek, V. Radová, Mluvíme s počítačem česky, Academia, 2006[SPO] X. Huang, A. Acero, H. Hon, Spoken Language Processing, Prentice-Hall, 2001PFL079 Detaily a novinky
Požadavky
Zkouška proběhne formou vypracování malých projektů (první dva na společné zadání, třetí jako naprogramování menší řečové aplikace s pomocí dostupných nástrojů nebo naprogramování rozšiřující funkce řečové knihovny).
Garant
Mgr. Nino Peterek, Ph.D.