Rozpoznávání mluvčích v záznamech televizních a rozhlasových pořadů

Silovský, Jan

Rozpoznávání mluvčích v záznamech televizních a rozhlasových pořadů

Title Alternative:Speaker recognition in records of broadcast programmes

Files

mgr_11789.pdf(523.62 KB)

Date

2006-01-01

Authors

Silovský, Jan

Publisher

Technická Univerzita v Liberci

Abstract

Diplomová práce se zabývá návrhem systému rozpoznávání mluvčích. Po stručném úvodu do problematiky rozpoznávání mluvčích a přehledu současného stavu je vysvětlena souvislost hlasových charakteristik a použitých melovských kepstrálních příznaků (MFCC). Práce se dále soustřeďuje na přístupy k reprezentaci modelů mluvčích v textově nezávislých systémech, vektorovou kvantizaci (VQ) a zejména směsi Gaussovských rozložení (GMM). Hlavní motivací práce je vytvoření modulu rozpoznávání mluvčích integrovatelného do systému kompletního automatického přepisu televizních a rozhlasových pořadů a tomu odpovídá formulace požadavků a návrh řešení. Byla provedena řada experimentů zabývajících se mimo jiné různými způsoby vyhodnocení identifikace a verifikace mluvčích, porovnáním vlivu různých metod estimace parametrů modelů, nebo významem detekce hlasových framů. Na jejich základě se podařilo nalézt vhodnou kombinaci metod a jejich nastavení. Při poměrně vysokém počtu 306 referenčních řečníků se podařilo dosáhnout úspěšnosti rozpoznávání více než 81 %.
The diploma thesis deals with design of speaker recognition system. After brief introducing to the field of speaker recognition and a summarization of the current state, the relationship between voice characteristics and mel cepstral coefficients (MFCC), used in proposed system, is explained. An attention of this thesis is then concentrated on approaches used to speaker modeling in text-independent systems, vector quantization (VQ) and particularly Gaussian mixture models (GMM). Main aim is to built a speaker recognition module integrable to the system for fully automated transcription of broadcast programmes, which impacts the demands and the proposed solution. Performed experiments compare different approaches to evaluation of speaker identification and verification, different methods for estimation of model parameters or signification of voice frame detection. Accordingly to the acquired results, the appropriate combination of methods and their configuration was chosen. Using quite large population of 306 reference speakers, the recognition rate exceeded the level of 81 %.

Description

katedra: KES; přílohy: 1 CD ROM; rozsah: 56 s.

Subject(s)

rozpoznávání mluvčích, televizní a rozhlasové pořady, směsi gaussovských rozložení, vektorová kvantizace, speaker recognition, broadcast programmes, gaussian mixture models, vector quantization

Item identifier

https://dspace.tul.cz/handle/15240/7332

Collections

Fakulta mechatroniky, informatiky a mezioborových studií

Show full item record