Browsing by Author "Silovský, Jan"
Now showing 1 - 10 of 10
Results Per Page
Sort Options
- ItemComparison of generative and discriminative approaches for speaker recognition with limited data(2009-01-01) Silovský, Jan; Červa, Petr; Žďánský, JindřichThis paper presents a comparison of three different speaker recognition methods deployed in a broadcast news processing system. We focus on how the generative and discriminative nature of these methods affects the speaker recognition framework and we also deal with intersession variability compensation techniques in more detail, which are of great interest in broadcast processing domain. Performed experiments are specific particularly for the very limited amount of data used for both speaker enrollment (typically ranging from 30 to 60 seconds) and recognition (typically ranging from 5 to 15 seconds). Our results show that the system based on Gaussian Mixture Models (GMMs) outperforms both systems based on Support Vector Machines (SVMs) but its drawback is higher computational cost.
- ItemFast Keyword Spotting in Telephone Speech(Spolecnost Pro Radioelektronicke Inzenyrstvi, 2009-01-01) Nouza, Jan; Silovský, JanIn the paper, we present a system designed for detecting keywords in telephone speech. We focus not only on achieving high accuracy but also on very short processing time. The keyword spotting system can run in three modes: a) an off-line mode requiring less than 0.1xRT, b) an on-line mode with minimum (2 s) latency, and c) a repeated spotting mode, in which pre-computed values allow for additional acceleration. Its performance is evaluated on recordings of Czech spontaneous telephone speech using rather large and complex keyword lists.
- ItemGenerativní a diskriminativní klasifikátory v úlohách textově nezávislého rozpoznávání a diarizace mluvčích(Technická Univerzita v Liberci, 2011-01-01) Silovský, Jan; Nouza, JanTato disertační práce se zabývá problematikou textově nezávislého rozpoznávání mluvčích. V úvodní části jsou ve stručnosti vysvětleny základní pojmy a úlohy rozpoznávání mluvčích, je stručně popsán současný stav problematiky, představena motivace pro využití informace o identitě mluvčích v systémech vyvíjených Laboratoří počítačového zpracování řeči na Technické univerzitě v Liberci (TUL) a na základě toho stanoveny cíle práce. Samostatná kapitola je věnována metodám používaným pro vyhodnocování úspěšnosti rozpoznávání, včetně metod pro takzvané aplikačně nezávislé vyhodnocení, a metodám pro kalibraci a fúzi systémů. V následující kapitole jsou postupně představeny metody založené na generativních modelech, od standardních metod využívajících modely reprezentované směsí Gaussovských rozložení, po moderní metody založené na různých formách faktorové analýzy. V kapitole věnované metodám založeným na diskriminativním principu je pozornost soustředěna na metody založené na podpůrných vektorech a speciální jádrové funkce navržené pro úlohu rozpoznávání mluvčích. Na příkladu aplikace rozpoznávání mluvčích v záznamech televizních a rozhlasových pořadů jsou diskutovány některé rozdílné charakteristiky dat standardních evaluačních databází a reálných aplikací. Následně jsou předloženy výsledky experimentálního vyhodnocení několika systémů, založených na generativním i diskriminativním přístupu, na vytvořené evaluační databázi českých televizních a rozhlasových pořadů. Jazykové omezení umožňuje využití systémů vyvinutých na TUL pro získání automatického přepisu nahrávek a jeho použití při rozpoznávání mluvčích. Následující kapitola shrnuje popis vývoje systémů pro účast TUL v evaluaci systémů pro rozpoznávání mluvčích pořádané americkým Úřadem pro standardy a technologii (NIST) v roce 2010. Jedním z hlavních přínosů práce je pak návrh několika přístupů pro shlukování mluvčích v rámci úlohy diarizace audiozáznamů, včetně návrhu dvoufázového schématu shlukování s využitím těchto přístupů. Ty vycházejí z principů metod navržených pro rozpoznávání mluvčích a jsou založeny na faktorové analýze. Experimentální vyhodnocení prezentovaných přístupů je provedeno na základě databáze televizních a rozhlasových zpravodajských pořadů vytvořené s využitím dat korpusu COST278.
- ItemGenerativní a diskriminativní klasifikátory v úlohách textově nezávislého rozpoznávání a diarizace mluvčích(Technická Univerzita v Liberci, 2011-01-01) Silovský, Jan
- ItemNávrh, tvorba a analýza řečového korpusu telefonních nahrávek pro úlohu rozpoznávání řeči a mluvčích(Technická Univerzita v Liberci, 2013-12-20) Pražák, Jan; Silovský, JanTato práce se zabývá zejména tvorbou a analýzou konkrétního řečového korpusu telefonních nahrávek. V první části se věnuje úvodu do počítačového zpracování řeči, nastiňuje účel tvorby korpusu a cíle práce. Ve druhé části se věnuje především teoretickému popisu tvorby korpusu a některým parametrům používaných při analýze řečového korpusu. Třetí část práce se zabývá popisem tvorby vytvořeného řečového korpusu. Konkrétně pak zejména vlastnímu pořizování a přepisování nahrávek a dále také softwarové podpoře Uvádí také nabyté zkušenosti při vytváření korpusu. Čtvrtá část práce se pak zabývá analýzou vytvořeného korpusu. Ta představuje analýzu signálů a analýzu fonetické bohatosti. Analýza signálů se zaměřuje na koeficient přebuzení, koeficient vybuzení a odhad odstupu signálu od šumu. Právě v souvislosti s odhadem odstupu signálu od šumu se věnuje také vývoji detektoru řečové aktivity. Analýza fonetické bohatosti se zaměřuje na porovnání výskytu fonémů v korpusu a v českém jazyce. V páté části se práce zaměřuje na přínos vytvoření korpusu pro účely Laboratoře počítačového zpracování řeči. V poslední šesté části shrnuje a diskutuje dosažené výsledky.
- ItemRobustní diarizace mluvčích(Technická Univerzita v Liberci, 2013-12-27) Pražák, Jan; Silovský, JanTato diplomová práce se zabývá tvorbou automatického systému pro rozlišení jednotlivých mluvčích v audio nahrávce (tzv. diarizace mluvčích). Kapitola 1 je úvodem do dané problematiky. Uvádí oblasti využití podobného systému a zmiňuje motivace práce. Kapitola 2 popisuje vybranou teorii z oblasti počítačového zpracování řeči, která byla využita při tvorbě zmíněného systému a která nachází v rozpoznávacích systémech širší uplatnění. Kapitola 3 na tuto teorii nepřímo navazuje a popisuje hojně používané metody již přímo z oblasti diarizace mluvčích. Kapitola 4 pak popisuje návrh systému včetně postupu pro získání nahrávek potřebných pro trénování dílčích modelů, které v systému vystupují. Kapitola 5 popisuje data, která byla k dispozici pro trénování, vývoj a testování systému. Kapitola 6 shrnuje praktickou část tvorby systému od zpracování dat až po jeho implementaci. Kapitola 7 uvádí výsledky testů, které byly systémem dosaženy. Závěrečná kapitola 8 shrnuje celou práci, zmiňuje plánovaná rozšíření systému a jeho plánované praktické využití.
- ItemRozpoznávání mluvčích v záznamech televizních a rozhlasových pořadů(Technická Univerzita v Liberci, 2006-01-01) Silovský, Jan; Nouza, JanDiplomová práce se zabývá návrhem systému rozpoznávání mluvčích. Po stručném úvodu do problematiky rozpoznávání mluvčích a přehledu současného stavu je vysvětlena souvislost hlasových charakteristik a použitých melovských kepstrálních příznaků (MFCC). Práce se dále soustřeďuje na přístupy k reprezentaci modelů mluvčích v textově nezávislých systémech, vektorovou kvantizaci (VQ) a zejména směsi Gaussovských rozložení (GMM). Hlavní motivací práce je vytvoření modulu rozpoznávání mluvčích integrovatelného do systému kompletního automatického přepisu televizních a rozhlasových pořadů a tomu odpovídá formulace požadavků a návrh řešení. Byla provedena řada experimentů zabývajících se mimo jiné různými způsoby vyhodnocení identifikace a verifikace mluvčích, porovnáním vlivu různých metod estimace parametrů modelů, nebo významem detekce hlasových framů. Na jejich základě se podařilo nalézt vhodnou kombinaci metod a jejich nastavení. Při poměrně vysokém počtu 306 referenčních řečníků se podařilo dosáhnout úspěšnosti rozpoznávání více než 81 %.
- ItemRozpoznávání mluvčích v záznamech televizních a rozhlasových pořadů(2006-01-01) Silovský, Jan
- ItemSpeech, Speaker and Speaker's Gender Identification in Automatically Processed Broadcast Stream(Spolecnost Pro Radioelektronicke Inzenyrstvi, 2006-01-01) Silovský, Jan; Nouza, JanThis paper presents a set of techniques for classification of audiosegments in a system for automatic transcription of broadcast programs. The task consists in deciding a) whether the segment is to be labeled as speech or a non-speech one, and in the former case, b) whether the talking person is one of the speakers in the database, and if not, c) which gender the speaker belongs to. The result of the classification is used to extend the information provided by the transcription system and also to enhance the performance of the speech recognition module. Like the most of the state-of-the-art speaker recognition systems, the proposed one is based on Gaussian Mixture Models (GMM). As the number of the database speakers can be large, we introduce a technique that speeds up the identification process in significant way. Furthermore, we compare several approaches to the estimation of GMM parameters. Finally, we present the results achieved in classification of 230 minutes of real broadcast data.
- ItemWebová aplikace pro rozpoznávání mluvčích(Technická Univerzita v Liberci, 2011-01-01) Vacek, Ondřej; Silovský, JanTato práce se zabývá tvorbou webové aplikace pro rozpoznávání mluvčích. Na začátku je krátce popsán způsob zpracování zvuku pro účely rozpoznávání mluvčích a následně jsou stručně vysvětleny metody používané při aplikaci těchto způsobů na reálné úlohy. Dále jsou zhodnoceny dnes nejpoužívanější webové technologie, které přicházeli v úvahu pro tvorbu výsledné aplikace. Postupně jsou prozkoumány jejich výhody a nevýhody, díky kterým byla vybrána nejvhodnější z technologií splňující požadavky aplikace. Poté jsou rozebrány vlastnosti vývojových nástrojů, které byli použity při samotné tvorbě webové aplikace. V neposlední řadě je do detailů rozepsán vývoj výsledné aplikace, její architektury a jejích součástí. Hlavním přínosem je webová aplikace, která umožňuje on-line rozpoznávání mluvčích. K tomu využívá software SRTK (speaker recognition toolkit), který obstarává výsledky rozpoznávání. Tento software byl vyvinut na Ústavu informačních technologií a elektroniky na Technické univerzitě v Liberci a je dílem Ing. Jana Silovského.