Rok 2016
Permanent URI for this collection
Browse
Browsing Rok 2016 by Author "Chaloupka Josef, doc. Ing. Ph.D. Skolitel : 54794"
Now showing 1 - 1 of 1
Results Per Page
Sort Options
- ItemAudiovizuální rozpoznávání řeči s využitím metod pro automatické odezírání ze rtů(Technická Univerzita v Liberci, 2009-8-1) Paleček, Karel; ; Chaloupka Josef, doc. Ing. Ph.D. Skolitel : 54794; Rozkovec Jiří, Mgr. Konzultant : 56638; Pifková Monika, Ing. Konzultant2 : 65313Automatické odezírání ze rtů je oborem vyvíjejícím se na pomezí automatického rozpoznávání řeči, strojového učení a počítačového vidění již více než 20 let. Ani přes významné pokroky od doby svého uvedení se však audiovizuální systémy rozpoznávání řeči v praxi výrazně neprosadily a to z několika důvodů. Jeden z klíčových předpokladů, návrh robustní parametrizace, zde navíc s využitím informace o trojrozměrné podobě povrchu úst, je předmětem této dizertační práce.Text je rozdělen do 12 kapitol. Kapitoly 25 rozebírají současný stav problematiky rozdělením na několik dílčích podproblémů. V kapitole 2 je uveden přehled algoritmů pro zarovnání obličeje a detekce zájmové oblasti. Největší pozornost je věnována parametrizaci vizuálního signálu v kapitole 3. Následující kapitoly 4 a 5 popisují metody klasifikace a možnosti integrace vizuální informace do akustických řečových dekodérů. Přehled nejčastěji využívaných audiovizuálních databází je uveden v kapitole 6. Rešeržní část práce je uzavřena kapitolou 7, která porovnává nejlepší doposud dosažené výsledky v dostupné literatuře. Samostatně jsou posouzeny vizuální a audiovizuální systémy a navíc je problematika rozdělena dle typu rozpoznávaných promluv a závislosti na mluvčích. Zohledněn je rovněž vliv vizuálního předzpracování.V práci jsou navrženy tři nové vizuální parametrizace řeči: trojrozměrná bloková diskrétní kosinová transformace (DCT3), prostoro-časově modifikovaný histogram orientovaných gradientů (HOGTOP) a rozšířený aktivní vzhledový model (DAAM). Jejich návrh, popsaný v kapitole 8, směřuje především k využití řečové dynamiky a zrobustnění klasického AAM integrací hloubkových dat jakožto zjednodušené formy informace o trojrozměrné podobě rtů.Za účelem vyhodnocení navržených i v současné době existujících parametrizací je vytvořena audiovizuální databáze TULAVD obsahující 54 mluvčích, viz kapitolu 9. Databáze je navržena i s ohledem na automatické rozpoznávání spojité řeči s velkým slovníkem (LVCSR). Samostatná sekce je věnována návrhu testovacího protokolu, který zamezuje optimalizaci modelů na testovaná data a výsledky v experimentální části tak nejsou zatíženy pozitivní zaujatostí.Experimentální část v kapitole 10 se věnuje především evaluaci navržených parametrizací a srovnání existujících na úloze rozpoznávání izolovaných slov. Kromě TULAVD je úspěšnost vlastní parametrizace demonstrována na dalších dvou známých databázích pro možnost přímého srovnání se stavem poznání. Rovněž je samostatně demonstrován pozitivní přínos hloubkových dat rekonstruovaných pomocí MS Kinect. Druhá část experimentů v kapitole 11 je pak zaměřena vyhodnocení vlivu vizuální informace v úloze LVCSR s různě velkými slovníky od několika stovek do pěti set tisíc slov.