dc.contributor.advisor	Nouza, Jan
dc.contributor.author	Silovský, Jan
dc.date	2012
dc.date.accessioned	2017-10-05
dc.date.available	2017-10-05
dc.date.committed	2011-12-05
dc.date.defense	2012-04-20
dc.date.issued	2011
dc.date.submitted	2006-08-01
dc.degree.level	Ph.D.
dc.description	katedra: ITE; rozsah: 194 s. (i-xxii, 1-160, I-VIII)	cs
dc.description.abstract	Tato disertační práce se zabývá problematikou textově nezávislého rozpoznávání mluvčích. V úvodní části jsou ve stručnosti vysvětleny základní pojmy a úlohy rozpoznávání mluvčích, je stručně popsán současný stav problematiky, představena motivace pro využití informace o identitě mluvčích v systémech vyvíjených Laboratoří počítačového zpracování řeči na Technické univerzitě v Liberci (TUL) a na základě toho stanoveny cíle práce. Samostatná kapitola je věnována metodám používaným pro vyhodnocování úspěšnosti rozpoznávání, včetně metod pro takzvané aplikačně nezávislé vyhodnocení, a metodám pro kalibraci a fúzi systémů. V následující kapitole jsou postupně představeny metody založené na generativních modelech, od standardních metod využívajících modely reprezentované směsí Gaussovských rozložení, po moderní metody založené na různých formách faktorové analýzy. V kapitole věnované metodám založeným na diskriminativním principu je pozornost soustředěna na metody založené na podpůrných vektorech a speciální jádrové funkce navržené pro úlohu rozpoznávání mluvčích. Na příkladu aplikace rozpoznávání mluvčích v záznamech televizních a rozhlasových pořadů jsou diskutovány některé rozdílné charakteristiky dat standardních evaluačních databází a reálných aplikací. Následně jsou předloženy výsledky experimentálního vyhodnocení několika systémů, založených na generativním i diskriminativním přístupu, na vytvořené evaluační databázi českých televizních a rozhlasových pořadů. Jazykové omezení umožňuje využití systémů vyvinutých na TUL pro získání automatického přepisu nahrávek a jeho použití při rozpoznávání mluvčích. Následující kapitola shrnuje popis vývoje systémů pro účast TUL v evaluaci systémů pro rozpoznávání mluvčích pořádané americkým Úřadem pro standardy a technologii (NIST) v roce 2010. Jedním z hlavních přínosů práce je pak návrh několika přístupů pro shlukování mluvčích v rámci úlohy diarizace audiozáznamů, včetně návrhu dvoufázového schématu shlukování s využitím těchto přístupů. Ty vycházejí z principů metod navržených pro rozpoznávání mluvčích a jsou založeny na faktorové analýze. Experimentální vyhodnocení prezentovaných přístupů je provedeno na základě databáze televizních a rozhlasových zpravodajských pořadů vytvořené s využitím dat korpusu COST278.	cs
dc.description.abstract	This contribution proposes an efficient method for the detection of relevant changes in continuous stream of sound. The detected change-points can then serve for the segmentation of long audio recordings into shorter and more or less homogenous sections. First, we discuss the task of a single change-point detection using the Bayes decision theory. We show that it leads to a quite simple and computationally efficient solution based on the Bayesian Information Criterion. Next, we extend this approach to formulate the algorithm for the detection of multiple change-points. Finally, the proposed algorithm is applied for the segmentation of broadcast news audio-streams into parts belonging to different speakers or different acoustic conditions. Such segmentation is necessary as the first step in the automatic speech-to-text transcription of TV or radio news.	en
dc.format	text
dc.identifier.signature	U 742 M
dc.identifier.uri	https://dspace.tul.cz/handle/15240/20989
dc.publisher	Technická Univerzita v Liberci	cs
dc.rights	Vysokoškolská závěrečná práce je autorské dílo chráněné dle zákona č. 121/2000 Sb., autorský zákon, ve znění pozdějších předpisů. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem https://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou https://knihovna.tul.cz/document/217	cs
dc.rights	A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act. https://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics https://knihovna.tul.cz/document/217	en
dc.rights.uri	https://knihovna.tul.cz/document/26
dc.rights.uri	https://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf
dc.subject	rozpoznávání řeči	cs
dc.subject	řečové signály	cs
dc.subject	speech recognition	en
dc.subject	speech signals	en
dc.title	Generativní a diskriminativní klasifikátory v úlohách textově nezávislého rozpoznávání a diarizace mluvčích	cs
dc.title.alternative	Generative and discriminative classifiers in the tasks of text-independent speaker recognition and diarization	en
dc.type	Thesis
dc.type	disertační práce	cs
local.department	Institute of Information Technology and Electronics
local.department	ITE	cs
local.faculty	Faculty of Mechatronics, Informatics and Interdisciplinary Studies
local.faculty	Fakulta mechatroniky, informatiky a mezioborových studií	cs
local.identifier.stag	24358
local.identifier.verbis	461455
local.note.administrators	TrykarovaA

Generativní a diskriminativní klasifikátory v úlohách textově nezávislého rozpoznávání a diarizace mluvčích

Title Alternative:Generative and discriminative classifiers in the tasks of text-independent speaker recognition and diarization

Files

Original bundle

Collections