Generativní a diskriminativní klasifikátory v úlohách textově nezávislého rozpoznávání a diarizace mluvčích

Title Alternative:Generative and discriminative classifiers in the tasks of text-independent speaker recognition and diarization
dc.contributor.advisorNouza, Jan
dc.contributor.authorSilovský, Jan
dc.date2012
dc.date.accessioned2017-10-05
dc.date.available2017-10-05
dc.date.committed2011-12-05
dc.date.defense2012-04-20
dc.date.issued2011
dc.date.submitted2006-08-01
dc.degree.levelPh.D.
dc.descriptionkatedra: ITE; rozsah: 194 s. (i-xxii, 1-160, I-VIII)cs
dc.description.abstractTato disertační práce se zabývá problematikou textově nezávislého rozpoznávání mluvčích. V úvodní části jsou ve stručnosti vysvětleny základní pojmy a úlohy rozpoznávání mluvčích, je stručně popsán současný stav problematiky, představena motivace pro využití informace o identitě mluvčích v systémech vyvíjených Laboratoří počítačového zpracování řeči na Technické univerzitě v Liberci (TUL) a na základě toho stanoveny cíle práce. Samostatná kapitola je věnována metodám používaným pro vyhodnocování úspěšnosti rozpoznávání, včetně metod pro takzvané aplikačně nezávislé vyhodnocení, a metodám pro kalibraci a fúzi systémů. V následující kapitole jsou postupně představeny metody založené na generativních modelech, od standardních metod využívajících modely reprezentované směsí Gaussovských rozložení, po moderní metody založené na různých formách faktorové analýzy. V kapitole věnované metodám založeným na diskriminativním principu je pozornost soustředěna na metody založené na podpůrných vektorech a speciální jádrové funkce navržené pro úlohu rozpoznávání mluvčích. Na příkladu aplikace rozpoznávání mluvčích v záznamech televizních a rozhlasových pořadů jsou diskutovány některé rozdílné charakteristiky dat standardních evaluačních databází a reálných aplikací. Následně jsou předloženy výsledky experimentálního vyhodnocení několika systémů, založených na generativním i diskriminativním přístupu, na vytvořené evaluační databázi českých televizních a rozhlasových pořadů. Jazykové omezení umožňuje využití systémů vyvinutých na TUL pro získání automatického přepisu nahrávek a jeho použití při rozpoznávání mluvčích. Následující kapitola shrnuje popis vývoje systémů pro účast TUL v evaluaci systémů pro rozpoznávání mluvčích pořádané americkým Úřadem pro standardy a technologii (NIST) v roce 2010. Jedním z hlavních přínosů práce je pak návrh několika přístupů pro shlukování mluvčích v rámci úlohy diarizace audiozáznamů, včetně návrhu dvoufázového schématu shlukování s využitím těchto přístupů. Ty vycházejí z principů metod navržených pro rozpoznávání mluvčích a jsou založeny na faktorové analýze. Experimentální vyhodnocení prezentovaných přístupů je provedeno na základě databáze televizních a rozhlasových zpravodajských pořadů vytvořené s využitím dat korpusu COST278.cs
dc.description.abstractThis contribution proposes an efficient method for the detection of relevant changes in continuous stream of sound. The detected change-points can then serve for the segmentation of long audio recordings into shorter and more or less homogenous sections. First, we discuss the task of a single change-point detection using the Bayes decision theory. We show that it leads to a quite simple and computationally efficient solution based on the Bayesian Information Criterion. Next, we extend this approach to formulate the algorithm for the detection of multiple change-points. Finally, the proposed algorithm is applied for the segmentation of broadcast news audio-streams into parts belonging to different speakers or different acoustic conditions. Such segmentation is necessary as the first step in the automatic speech-to-text transcription of TV or radio news.en
dc.formattext
dc.identifier.signatureU 742 M
dc.identifier.urihttps://dspace.tul.cz/handle/15240/20989
dc.publisherTechnická Univerzita v Libercics
dc.rightsVysokoškolská závěrečná práce je autorské dílo chráněné dle zákona č. 121/2000 Sb., autorský zákon, ve znění pozdějších předpisů. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem https://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou https://knihovna.tul.cz/document/217cs
dc.rightsA university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act. https://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics https://knihovna.tul.cz/document/217en
dc.rights.urihttps://knihovna.tul.cz/document/26
dc.rights.urihttps://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf
dc.subjectrozpoznávání řečics
dc.subjectřečové signálycs
dc.subjectspeech recognitionen
dc.subjectspeech signalsen
dc.titleGenerativní a diskriminativní klasifikátory v úlohách textově nezávislého rozpoznávání a diarizace mluvčíchcs
dc.title.alternativeGenerative and discriminative classifiers in the tasks of text-independent speaker recognition and diarizationen
dc.typeThesis
dc.typedisertační prácecs
local.departmentInstitute of Information Technology and Electronics
local.departmentITEcs
local.facultyFaculty of Mechatronics, Informatics and Interdisciplinary Studies
local.facultyFakulta mechatroniky, informatiky a mezioborových studiícs
local.identifier.stag24358
local.identifier.verbis461455
local.note.administratorsTrykarovaA
Files
Original bundle
Now showing 1 - 4 of 4
Loading...
Thumbnail Image
Name:
Dipl_24358.pdf
Size:
332.53 KB
Format:
Adobe Portable Document Format
Description:
Posudek vedoucího práce
Loading...
Thumbnail Image
Name:
24358.pdf
Size:
2.02 MB
Format:
Adobe Portable Document Format
Description:
Kvalifikačmí práce
Loading...
Thumbnail Image
Name:
ODipl_24358.pdf
Size:
2.34 MB
Format:
Adobe Portable Document Format
Description:
Posudek oponenta
Loading...
Thumbnail Image
Name:
ObDipl_24358.pdf
Size:
633.68 KB
Format:
Adobe Portable Document Format
Description:
Obhajoba práce
Collections