Rozpoznávání mluvčích v záznamech televizních a rozhlasových pořadů

Silovský, Jan

Rozpoznávání mluvčích v záznamech televizních a rozhlasových pořadů

Title Alternative:Speaker recognition in records of broadcast programmes

dc.contributor.advisor	Nouza, Jan
dc.contributor.author	Silovský, Jan
dc.date	2006
dc.date.accessioned	2015-04-12
dc.date.available	2015-04-12
dc.date.committed	2006-05-19
dc.date.defense	2006-06-13
dc.date.issued	2006-01-01
dc.date.submitted	2005-10-31
dc.degree.level	mgr	cs
dc.description	katedra: KES; přílohy: 1 CD ROM; rozsah: 56 s.	cs
dc.description.abstract	Diplomová práce se zabývá návrhem systému rozpoznávání mluvčích. Po stručném úvodu do problematiky rozpoznávání mluvčích a přehledu současného stavu je vysvětlena souvislost hlasových charakteristik a použitých melovských kepstrálních příznaků (MFCC). Práce se dále soustřeďuje na přístupy k reprezentaci modelů mluvčích v textově nezávislých systémech, vektorovou kvantizaci (VQ) a zejména směsi Gaussovských rozložení (GMM). Hlavní motivací práce je vytvoření modulu rozpoznávání mluvčích integrovatelného do systému kompletního automatického přepisu televizních a rozhlasových pořadů a tomu odpovídá formulace požadavků a návrh řešení. Byla provedena řada experimentů zabývajících se mimo jiné různými způsoby vyhodnocení identifikace a verifikace mluvčích, porovnáním vlivu různých metod estimace parametrů modelů, nebo významem detekce hlasových framů. Na jejich základě se podařilo nalézt vhodnou kombinaci metod a jejich nastavení. Při poměrně vysokém počtu 306 referenčních řečníků se podařilo dosáhnout úspěšnosti rozpoznávání více než 81 %.	cs
dc.description.abstract	The diploma thesis deals with design of speaker recognition system. After brief introducing to the field of speaker recognition and a summarization of the current state, the relationship between voice characteristics and mel cepstral coefficients (MFCC), used in proposed system, is explained. An attention of this thesis is then concentrated on approaches used to speaker modeling in text-independent systems, vector quantization (VQ) and particularly Gaussian mixture models (GMM). Main aim is to built a speaker recognition module integrable to the system for fully automated transcription of broadcast programmes, which impacts the demands and the proposed solution. Performed experiments compare different approaches to evaluation of speaker identification and verification, different methods for estimation of model parameters or signification of voice frame detection. Accordingly to the acquired results, the appropriate combination of methods and their configuration was chosen. Using quite large population of 306 reference speakers, the recognition rate exceeded the level of 81 %.	en
dc.format	text
dc.identifier.uri	https://dspace.tul.cz/handle/15240/7332
dc.language.iso	cs
dc.publisher	Technická Univerzita v Liberci	cs
dc.subject	rozpoznávání mluvčích	cs
dc.subject	televizní a rozhlasové pořady	cs
dc.subject	směsi gaussovských rozložení	cs
dc.subject	vektorová kvantizace	cs
dc.subject	speaker recognition	en
dc.subject	broadcast programmes	en
dc.subject	gaussian mixture models	en
dc.subject	vector quantization	en
dc.subject.verbis	televizní pořady	cs
dc.title	Rozpoznávání mluvčích v záznamech televizních a rozhlasových pořadů	cs
dc.title.alternative	Speaker recognition in records of broadcast programmes	en
dc.type	Thesis
local.department	KES	cs
local.faculty	Fakulta mechatroniky, informatiky a mezioborových studií	cs
local.identifier.stag	11789
local.identifier.verbis	277595
local.note.administrators	oprava_A
local.verbis.aktualizace	2019-10-05 06:20:54	cs
local.verbis.studijniprogram	KEL AŘII	cs

Files

Original bundle

Now showing 1 - 1 of 1

Name:: mgr_11789.pdf
Size:: 523.62 KB
Format:: Adobe Portable Document Format
Description:: kvalifikační práce

Download

Collections

Fakulta mechatroniky, informatiky a mezioborových studií