Generativní a diskriminativní klasifikátory v úlohách textově nezávislého rozpoznávání a diarizace mluvčích
Title Alternative:Generative and discriminative classifiers in the tasks of text-independent speaker recognition and diarization
dc.contributor.advisor | Nouza, Jan | |
dc.contributor.author | Silovský, Jan | |
dc.date | 2012 | |
dc.date.accessioned | 2017-10-05 | |
dc.date.available | 2017-10-05 | |
dc.date.committed | 2011-12-05 | |
dc.date.defense | 2012-04-20 | |
dc.date.issued | 2011 | |
dc.date.submitted | 2006-08-01 | |
dc.degree.level | Ph.D. | |
dc.description | katedra: ITE; rozsah: 194 s. (i-xxii, 1-160, I-VIII) | cs |
dc.description.abstract | Tato disertační práce se zabývá problematikou textově nezávislého rozpoznávání mluvčích. V úvodní části jsou ve stručnosti vysvětleny základní pojmy a úlohy rozpoznávání mluvčích, je stručně popsán současný stav problematiky, představena motivace pro využití informace o identitě mluvčích v systémech vyvíjených Laboratoří počítačového zpracování řeči na Technické univerzitě v Liberci (TUL) a na základě toho stanoveny cíle práce. Samostatná kapitola je věnována metodám používaným pro vyhodnocování úspěšnosti rozpoznávání, včetně metod pro takzvané aplikačně nezávislé vyhodnocení, a metodám pro kalibraci a fúzi systémů. V následující kapitole jsou postupně představeny metody založené na generativních modelech, od standardních metod využívajících modely reprezentované směsí Gaussovských rozložení, po moderní metody založené na různých formách faktorové analýzy. V kapitole věnované metodám založeným na diskriminativním principu je pozornost soustředěna na metody založené na podpůrných vektorech a speciální jádrové funkce navržené pro úlohu rozpoznávání mluvčích. Na příkladu aplikace rozpoznávání mluvčích v záznamech televizních a rozhlasových pořadů jsou diskutovány některé rozdílné charakteristiky dat standardních evaluačních databází a reálných aplikací. Následně jsou předloženy výsledky experimentálního vyhodnocení několika systémů, založených na generativním i diskriminativním přístupu, na vytvořené evaluační databázi českých televizních a rozhlasových pořadů. Jazykové omezení umožňuje využití systémů vyvinutých na TUL pro získání automatického přepisu nahrávek a jeho použití při rozpoznávání mluvčích. Následující kapitola shrnuje popis vývoje systémů pro účast TUL v evaluaci systémů pro rozpoznávání mluvčích pořádané americkým Úřadem pro standardy a technologii (NIST) v roce 2010. Jedním z hlavních přínosů práce je pak návrh několika přístupů pro shlukování mluvčích v rámci úlohy diarizace audiozáznamů, včetně návrhu dvoufázového schématu shlukování s využitím těchto přístupů. Ty vycházejí z principů metod navržených pro rozpoznávání mluvčích a jsou založeny na faktorové analýze. Experimentální vyhodnocení prezentovaných přístupů je provedeno na základě databáze televizních a rozhlasových zpravodajských pořadů vytvořené s využitím dat korpusu COST278. | cs |
dc.description.abstract | This contribution proposes an efficient method for the detection of relevant changes in continuous stream of sound. The detected change-points can then serve for the segmentation of long audio recordings into shorter and more or less homogenous sections. First, we discuss the task of a single change-point detection using the Bayes decision theory. We show that it leads to a quite simple and computationally efficient solution based on the Bayesian Information Criterion. Next, we extend this approach to formulate the algorithm for the detection of multiple change-points. Finally, the proposed algorithm is applied for the segmentation of broadcast news audio-streams into parts belonging to different speakers or different acoustic conditions. Such segmentation is necessary as the first step in the automatic speech-to-text transcription of TV or radio news. | en |
dc.format | text | |
dc.identifier.signature | U 742 M | |
dc.identifier.uri | https://dspace.tul.cz/handle/15240/20989 | |
dc.publisher | Technická Univerzita v Liberci | cs |
dc.rights | Vysokoškolská závěrečná práce je autorské dílo chráněné dle zákona č. 121/2000 Sb., autorský zákon, ve znění pozdějších předpisů. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem https://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou https://knihovna.tul.cz/document/217 | cs |
dc.rights | A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act. https://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics https://knihovna.tul.cz/document/217 | en |
dc.rights.uri | https://knihovna.tul.cz/document/26 | |
dc.rights.uri | https://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf | |
dc.subject | rozpoznávání řeči | cs |
dc.subject | řečové signály | cs |
dc.subject | speech recognition | en |
dc.subject | speech signals | en |
dc.title | Generativní a diskriminativní klasifikátory v úlohách textově nezávislého rozpoznávání a diarizace mluvčích | cs |
dc.title.alternative | Generative and discriminative classifiers in the tasks of text-independent speaker recognition and diarization | en |
dc.type | Thesis | |
dc.type | disertační práce | cs |
local.department | Institute of Information Technology and Electronics | |
local.department | ITE | cs |
local.faculty | Faculty of Mechatronics, Informatics and Interdisciplinary Studies | |
local.faculty | Fakulta mechatroniky, informatiky a mezioborových studií | cs |
local.identifier.stag | 24358 | |
local.identifier.verbis | 461455 | |
local.note.administrators | TrykarovaA |
Files
Original bundle
1 - 4 of 4
Loading...
- Name:
- Dipl_24358.pdf
- Size:
- 332.53 KB
- Format:
- Adobe Portable Document Format
- Description:
- Posudek vedoucího práce
Loading...
- Name:
- 24358.pdf
- Size:
- 2.02 MB
- Format:
- Adobe Portable Document Format
- Description:
- Kvalifikačmí práce
Loading...
- Name:
- ODipl_24358.pdf
- Size:
- 2.34 MB
- Format:
- Adobe Portable Document Format
- Description:
- Posudek oponenta
Loading...
- Name:
- ObDipl_24358.pdf
- Size:
- 633.68 KB
- Format:
- Adobe Portable Document Format
- Description:
- Obhajoba práce