Rozpoznávání mluvčích v záznamech televizních a rozhlasových pořadů

Title Alternative:Speaker recognition in records of broadcast programmes
dc.contributor.advisorNouza, Jan
dc.contributor.authorSilovský, Jan
dc.date2006
dc.date.accessioned2015-04-12
dc.date.available2015-04-12
dc.date.committed2006-05-19
dc.date.defense2006-06-13
dc.date.issued2006
dc.date.submitted2005-10-31
dc.degree.levelmgrcs
dc.descriptionkatedra: KES; přílohy: 1 CD ROM; rozsah: 56 s.cs
dc.description.abstractDiplomová práce se zabývá návrhem systému rozpoznávání mluvčích. Po stručném úvodu do problematiky rozpoznávání mluvčích a přehledu současného stavu je vysvětlena souvislost hlasových charakteristik a použitých melovských kepstrálních příznaků (MFCC). Práce se dále soustřeďuje na přístupy k reprezentaci modelů mluvčích v textově nezávislých systémech, vektorovou kvantizaci (VQ) a zejména směsi Gaussovských rozložení (GMM). Hlavní motivací práce je vytvoření modulu rozpoznávání mluvčích integrovatelného do systému kompletního automatického přepisu televizních a rozhlasových pořadů a tomu odpovídá formulace požadavků a návrh řešení. Byla provedena řada experimentů zabývajících se mimo jiné různými způsoby vyhodnocení identifikace a verifikace mluvčích, porovnáním vlivu různých metod estimace parametrů modelů, nebo významem detekce hlasových framů. Na jejich základě se podařilo nalézt vhodnou kombinaci metod a jejich nastavení. Při poměrně vysokém počtu 306 referenčních řečníků se podařilo dosáhnout úspěšnosti rozpoznávání více než 81 %.cs
dc.description.abstractThe diploma thesis deals with design of speaker recognition system. After brief introducing to the field of speaker recognition and a summarization of the current state, the relationship between voice characteristics and mel cepstral coefficients (MFCC), used in proposed system, is explained. An attention of this thesis is then concentrated on approaches used to speaker modeling in text-independent systems, vector quantization (VQ) and particularly Gaussian mixture models (GMM). Main aim is to built a speaker recognition module integrable to the system for fully automated transcription of broadcast programmes, which impacts the demands and the proposed solution. Performed experiments compare different approaches to evaluation of speaker identification and verification, different methods for estimation of model parameters or signification of voice frame detection. Accordingly to the acquired results, the appropriate combination of methods and their configuration was chosen. Using quite large population of 306 reference speakers, the recognition rate exceeded the level of 81 %.en
dc.formattext
dc.identifier.urihttps://dspace.tul.cz/handle/15240/7332
dc.language.isocs
dc.publisherTechnická Univerzita v Libercics
dc.subjectrozpoznávání mluvčíchcs
dc.subjecttelevizní a rozhlasové pořadycs
dc.subjectsměsi gaussovských rozloženícs
dc.subjectvektorová kvantizacecs
dc.subjectspeaker recognitionen
dc.subjectbroadcast programmesen
dc.subjectgaussian mixture modelsen
dc.subjectvector quantizationen
dc.subject.verbistelevizní pořadycs
dc.titleRozpoznávání mluvčích v záznamech televizních a rozhlasových pořadůcs
dc.title.alternativeSpeaker recognition in records of broadcast programmesen
dc.typeThesis
local.departmentKEScs
local.facultyFakulta mechatroniky, informatiky a mezioborových studiícs
local.identifier.stag11789
local.identifier.verbis277595
local.note.administratorsoprava_A
local.verbis.aktualizace2019-10-05 06:20:54cs
local.verbis.studijniprogramKEL AŘIIcs
Files
Original bundle
Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
mgr_11789.pdf
Size:
523.62 KB
Format:
Adobe Portable Document Format
Description:
kvalifikační práce