Audiovizuální rozpoznávání řeči s využitím metod pro automatické odezírání ze rtů

dc.contributor
dc.contributor.advisor
dc.contributor.authorPaleček, Karel
dc.contributor.otherChaloupka Josef, doc. Ing. Ph.D. Skolitel : 54794
dc.contributor.otherRozkovec Jiří, Mgr. Konzultant : 56638
dc.contributor.otherPifková Monika, Ing. Konzultant2 : 65313
dc.date2016
dc.date.accessioned2019-02-03T07:10:33Z
dc.date.available2019-02-03T07:10:33Z
dc.date.committed2013-7-31
dc.date.defense2016-5-26
dc.date.submitted2009-8-1
dc.date.updated2018-12-10
dc.degree.levelPh.D.
dc.description.abstractAutomatické odezírání ze rtů je oborem vyvíjejícím se na pomezí automatického rozpoznávání řeči, strojového učení a počítačového vidění již více než 20 let. Ani přes významné pokroky od doby svého uvedení se však audiovizuální systémy rozpoznávání řeči v praxi výrazně neprosadily a to z několika důvodů. Jeden z klíčových předpokladů, návrh robustní parametrizace, zde navíc s využitím informace o trojrozměrné podobě povrchu úst, je předmětem této dizertační práce.Text je rozdělen do 12 kapitol. Kapitoly 25 rozebírají současný stav problematiky rozdělením na několik dílčích podproblémů. V kapitole 2 je uveden přehled algoritmů pro zarovnání obličeje a detekce zájmové oblasti. Největší pozornost je věnována parametrizaci vizuálního signálu v kapitole 3. Následující kapitoly 4 a 5 popisují metody klasifikace a možnosti integrace vizuální informace do akustických řečových dekodérů. Přehled nejčastěji využívaných audiovizuálních databází je uveden v kapitole 6. Rešeržní část práce je uzavřena kapitolou 7, která porovnává nejlepší doposud dosažené výsledky v dostupné literatuře. Samostatně jsou posouzeny vizuální a audiovizuální systémy a navíc je problematika rozdělena dle typu rozpoznávaných promluv a závislosti na mluvčích. Zohledněn je rovněž vliv vizuálního předzpracování.V práci jsou navrženy tři nové vizuální parametrizace řeči: trojrozměrná bloková diskrétní kosinová transformace (DCT3), prostoro-časově modifikovaný histogram orientovaných gradientů (HOGTOP) a rozšířený aktivní vzhledový model (DAAM). Jejich návrh, popsaný v kapitole 8, směřuje především k využití řečové dynamiky a zrobustnění klasického AAM integrací hloubkových dat jakožto zjednodušené formy informace o trojrozměrné podobě rtů.Za účelem vyhodnocení navržených i v současné době existujících parametrizací je vytvořena audiovizuální databáze TULAVD obsahující 54 mluvčích, viz kapitolu 9. Databáze je navržena i s ohledem na automatické rozpoznávání spojité řeči s velkým slovníkem (LVCSR). Samostatná sekce je věnována návrhu testovacího protokolu, který zamezuje optimalizaci modelů na testovaná data a výsledky v experimentální části tak nejsou zatíženy pozitivní zaujatostí.Experimentální část v kapitole 10 se věnuje především evaluaci navržených parametrizací a srovnání existujících na úloze rozpoznávání izolovaných slov. Kromě TULAVD je úspěšnost vlastní parametrizace demonstrována na dalších dvou známých databázích pro možnost přímého srovnání se stavem poznání. Rovněž je samostatně demonstrován pozitivní přínos hloubkových dat rekonstruovaných pomocí MS Kinect. Druhá část experimentů v kapitole 11 je pak zaměřena vyhodnocení vlivu vizuální informace v úloze LVCSR s různě velkými slovníky od několika stovek do pěti set tisíc slov.cs
dc.description.abstractAutomatic lip reading is a research field closely related to automatic speech recognition, machine learning and computer vision. Despite being developed for more than two decades, systems for audiovisual speech recognition are still not widely used in practice due to several reasons. One critical component, namely the design of a robust and discriminative visual parametrization, here also with utilization of information about depth, is the main topic of this dissertation thesis.The text of the dissertation consists of 12 chapters. Chapters 25 present the current state of the art and each focuses on one specific subproblem of visual and audiovisual speech recognition. Chapter 2 investigates methods for face alignment and detection of the region of interest. Commonly used features and algorithms of their extraction are examined in chapter 3, followed by an overview of classification methods in chapter 4, fusion of multiple sources of information in chapter 5, and existing audiovisual datasets in chapter 6. The first part of the thesis examining the state of the art is summarized in chapter 7, which compares currently the best results achieved on various commonly used datasets with respect to recognition grammar, vocabulary size, speaker dependency and visual preprocessing.Three different robust visual parametrizations are proposed and explained in chapter 8: block-based three-dimensional discrete cosine transform (DCT3), spatiotemporal histogram of oriented gradients (HOGTOP), and depth-extended active appearance model (DAAM). While the former two are ROI-based source-agnostic parametrizations designed mainly to exploit the speech dynamics, DAAM directly integrates depth data obtained via Kinect in order to achieve greater robustness against lightning variations and better phone discrimination.In order to evaluate the existing and proposed features on both video and depth data, new database called TULAVD has been recorded. As described in chapter 9, each of the 54 speakers uttered 50 isolated words and 100 gramatically unrestricted sentences in Czech language. Special section is devoted to the design of the evaluation protocol that minimizes the risk of overfitting when tuning the decoder.Experiments in chapter 10 evaluate selected popular and proposed features in the task of isolated unit recognition. In order to compare the achieved results to the state of the art, two other commonly used datasets besides TULAVD are included: OuluVS and CUAVE. Experiments on multiple modality fusion show the benefit of adding the Kinect depth data into the recognition process for both feature fusion and integration via multistream hidden Markov model. As opposed to the vast majority of recent work on lipreading, the above mentioned evaluation is also performed in the task of large vocabulary continuous speech recognition with gradually increasing vocabulary size from several hundreds to half a million, see chapter 11.en
dc.formattext
dc.format.extentIlustrace, Tabulky 1 s disertační prací ve formátu PDF, Grafy, Tabulky 1
dc.identifier.signatureU 906 M
dc.identifier.urihttps://dspace.tul.cz/handle/15240/150814
dc.language.isocs
dc.publisherTechnická Univerzita v Libercics
dc.rightsVysokoškolská závěrečná práce je autorské dílo chráněné dle zákona č. 121/2000 Sb., autorský zákon, ve znění pozdějších předpisů. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem https://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou https://knihovna.tul.cz/document/214cs
dc.rightsA university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act. https://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics https://knihovna.tul.cz/document/214en
dc.rights.urihttps://knihovna.tul.cz/document/26
dc.rights.urihttps://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf
dc.subjectaudiovizuální rozpoznávání řečics
dc.subjectodezírání ze rtůcs
dc.subjectrozpoznávání spojité řeči s velkým slovníkemcs
dc.subjecthloubková mapacs
dc.subjectKinectcs
dc.subjectskrytý markovský modelcs
dc.subjectaudiovisual speech recognitionen
dc.subjectlipreadingen
dc.subjectlarge vocabulary continous speech recognitionen
dc.subjectdepth mapen
dc.subjectKinecten
dc.subjecthidden Markov modelen
dc.titleAudiovizuální rozpoznávání řeči s využitím metod pro automatické odezírání ze rtůcs
dc.titleAudiovisual speech recognition by utilizing methods for automatic lipreadingen
dc.typeThesis
dc.typedisertační prácecs
local.degree.disciplineTK4
local.degree.programmeElektrotechnika a informatika
local.degree.programmeabbreviationP2612
local.department.abbreviationITE
local.facultyFakulta mechatroniky, informatiky a mezioborových studiícs
local.faculty.abbreviationFM
local.identifier.authorM09000005
local.identifier.stag34706
local.note.administratorsTrykarovaA
Files
Original bundle
Now showing 1 - 4 of 4
Loading...
Thumbnail Image
Name:
Dis.pdf
Size:
41.79 MB
Format:
Adobe Portable Document Format
Description:
VSKP
Loading...
Thumbnail Image
Name:
hodnoceni_skolitele_Palecek.pdf
Size:
259.97 KB
Format:
Adobe Portable Document Format
Description:
Posudek_vedouciho_VSKP
Loading...
Thumbnail Image
Name:
Op.posudky_Palecek.pdf
Size:
1.28 MB
Format:
Adobe Portable Document Format
Description:
Posudek_oponenta_VSKP
Loading...
Thumbnail Image
Name:
Zapis_obhajoba_Palecek.pdf
Size:
741.02 KB
Format:
Adobe Portable Document Format
Description:
Prubeh_obhajoby_VSKP
Collections