Browsing by Author "Žďánský, Jindřich"
Now showing 1 - 14 of 14
Results Per Page
Sort Options
- ItemComparison of generative and discriminative approaches for speaker recognition with limited data(2009) Silovský, Jan; Červa, Petr; Žďánský, JindřichThis paper presents a comparison of three different speaker recognition methods deployed in a broadcast news processing system. We focus on how the generative and discriminative nature of these methods affects the speaker recognition framework and we also deal with intersession variability compensation techniques in more detail, which are of great interest in broadcast processing domain. Performed experiments are specific particularly for the very limited amount of data used for both speaker enrollment (typically ranging from 30 to 60 seconds) and recognition (typically ranging from 5 to 15 seconds). Our results show that the system based on Gaussian Mixture Models (GMMs) outperforms both systems based on Support Vector Machines (SVMs) but its drawback is higher computational cost.
- ItemThe COST278 broadcast news segmentation and speaker clustering evaluation - Overview, methodology, systems, results(Technická Univerzita v Liberci, 2005) Žibert, Janez; Mihelič, France; Martens, Jean Pierre; Meinedo, Hugo; Neto, João Paulo Da Silva; Docío, Laura; Garcia-Mateo, Carmen García; David, Petr; Žďánský, Jindřich; Pleva, Matúš; Čimár, Anton; Žgank, Andrej; Kačič, Zdravko; Teleki, Csaba; Vicsi, KláraThis paper describes a large scale experiment in which eight research institutions have tested their audio partitioning and labeling algorithms on the same data, a multi-lingual database of news broadcasts, using the same evaluation tools and protocols. The experiments have provide more insight in the cross-lingual robustness of the methods and they have demonstrated that by further collaborating in the domains of speaker change detection and speaker clustering it should be possible to achieve further technological progress in the near future.
- ItemThe COST278 broadcast news segmentation and speaker clustering evaluation - Overview, methodology, systems, results(Technická Univerzita v Liberci, 2005) Žibert, Janez; Mihelič, France; Martens, Jean Pierre; Meinedo, Hugo; Neto, João Paulo Da Silva; Docío, Laura; Garcia-Mateo, Carmen García; David, Petr; Žďánský, Jindřich; Pleva, Matúš; Čimár, Anton; Žgank, Andrej; Kačič, Zdravko; Teleki, Csaba; Vicsi, KláraThis paper describes a large scale experiment in which eight research institutions have tested their audio partitioning and labeling algorithms on the same data, a multi-lingual database of news broadcasts, using the same evaluation tools and protocols. The experiments have provide more insight in the cross-lingual robustness of the methods and they have demonstrated that by further collaborating in the domains of speaker change detection and speaker clustering it should be possible to achieve further technological progress in the near future.
- ItemDetection of acoustic change-points in audio streams and signal segmentation(Czech Technical University, 2005) Žďánský, JindřichThis contribution proposes an efficient method for the detection of relevant changes in continuous stream of sound. The detected change-points can then serve for the segmentation of long audio recordings into shorter and more or less homogenous sections. First, we discuss the task of a single change-point detection using the Bayes decision theory. We show that it leads to a quite simple and computationally efficient solution based on the Bayesian Information Criterion. Next, we extend this approach to formulate the algorithm for the detection of multiple change-points. Finally, the proposed algorithm is applied for the segmentation of broadcast news audio-streams into parts belonging to different speakers or different acoustic conditions. Such segmentation is necessary as the first step in the automatic speech-to-text transcription of TV or radio news.
- ItemDetekce změny řečníka v telefonních záznamech(Technická Univerzita v Liberci, 2007) Zverec, Štefan; Žďánský, JindřichDiplomová práce se zabývá možností využití metody binárního dělení pro potřeby detekce změny řečníka v telefonních hovorech. V úvodních kapitolách nalezneme dva základní přístupy k parametrizaci akustického signálu. Pomocí diskrétní Fourierovy transformace - tzv. melfrekvenční kepstrální příznaky a pomocí lineární prediktivní analýzy - LPC příznaky. Dále je zde stručně popsán princip převedení problému změny mluvčího na změnu parametrů ve stochastickém procesu a popsány algoritmy trénování, testování a vyhodnocení detektoru změn. Práce popisuje jednotlivé kroky při trénování a testování detekce změn mluvčích a uvádí výsledky vyhodnocení úspěšnosti metody na základě počtu správně nalezených změn. Pro pořízenou databázi telefonních hovorů byla statistickým vyhodnocením stanovena míra úspěšnosti detekce F=72% pro reálné nahrávky, F=96% pro nahrávky uměle vytvořené.
- ItemDistribuovaný systém pro rozpoznávání spojité řeči(Technická Univerzita v Liberci, 2013-12-27) Jasso, Miroslav; Žďánský, JindřichCílem této diplomové práce je navrhnout a naprogramovat systém distribuovaného rozpoznávání řeči pomocí Rozpoznávače spojité řeči, který vyvíjí ústav ITE. Za tímto účelem bude navrženo několik odlišných principů komunikace a jeden bude realizován v praxi v podobě funkčního systému. Systém se bude skládat ze tří samostatných aplikací. Hlavní součástí bude server. Dále dva klienti, jeden grafický určený pro diktování a zobrazování rozpoznaného textu, druhý klient bude tvořit mezičlánek mezi Rozpoznávačem spojité řeči a serverem.
- ItemFulltextové prohledávání multimediálních databází(Technická Univerzita v Liberci, 2013-12-20) Pleva, Jan; Žďánský, JindřichCílem diplomové práce je vytvořit funkční multimediální vyhledávač. Práce pojednává o základních principech a pravidlech tvorby webového vyhledávače, zejména oddělenosti jednotlivých vrstev. V práci je rozebrána problematika a zpracování multimediálních dat. Podrobně je popsán jazykový model češtiny, který zajišťuje skloňování slov a tak výrazně zlepšuje výsledky hledání. Jsou zde rozebrány a vysvětleny základní druhy vyhledávacích algoritmů a jejich fungování. Práce detailně popisuje strukturu a tvorbu uživatelského prostředí. Vyhledávač má implementovány dva vyhledávací algoritmy. Syntaxe dotazovacího jazyka je tvořena jednoduchými prvky, na které si uživatel snadno a rychle zvykne. Též je možno využít přehledného a intuitivního pokročilého vyhledávání. Vyhledávač disponuje nadstandardními možnostmi omezení výsledků, což přispívá k zpřesnění hledaných dokumentů. Moderní prostředí vyhledávače je navrženo přátelsky pro uživatele. Použity jsou moderní prvky webové technologie. Výsledkem práce je funkční multimediální vyhledávač.
- ItemIndexace a prohledávání multimédií(Technická Univerzita v Liberci, 2010) Blavka, Karel; Žďánský, JindřichV úvodu této práce se věnuji způsobům zpracování audio složky multimediálních souborů za účelem indexace jejich obsahu. Jsou zde popsány způsoby získávání dat, včetně mého. Dále popis formátu, ve kterém lze získaná data uchovávat.V následující kapitole se věnuji fulltextovému vyhledávání, které je základem mnou navrženého systému. Je zde porovnání několika vyhledávacích strojů, zvláštní pozornost je věnována fulltextovému vyhledávání pomocí MySQL a Sphinx. Následuje kapitola zabývající se návrhem systému pro indexaci a vyhledávání v přepisech multimediálních souborů včetně návrhu uživatelského rozhraní jako webové aplikace. V jednotlivých podkapitolách se věnuji popisu navrženého systému, databázi pro ukládání dat a uživatelskému rozhraní, dále popisuji použité technologie a programovací jazyky.Na předchozí kapitolu navazuji kapitolou zabývající se implementací celého systému. V první podkapitole popisuji program pro vkládání dat do systému, následuje implementace webové aplikace založené na technologii AJAX a podkapitola věnující se konfiguraci Sphinxu. V poslední kapitole se v první části věnuji odzkoušení reálného serveru, na kterém jsem vytvořený systém spustil. V druhé části popisu a seznámení s možnostmi webové aplikace.Součástí příloh této práce je popis instalace a zprovoznění serveru, a to jak pro Linux, na kterém server v současnosti běží, tak na MS Windows.
- ItemMetody detekce změny mluvčího v akustickém signálu(Technická Univerzita v Liberci, ) Žďánský, Jindřich
- ItemPerformance of Czech Speech Recognition with Language Models Created from Public Resources(Spolecnost Pro Radioelektronicke Inzenyrstvi, 2011) Procházka, Václav; Pollak, Petr; Žďánský, Jindřich; Nouza, JanIn this paper, we investigate the usability of publicly available n-gram corpora for the creation of language models (LM) applicable for Czech speech recognition systems. N-gram LMs with various parameters and settings were created from two publicly available sets, Czech Web 1T 5-gram corpus provided by Google and 5-gram corpus obtained from the Czech National Corpus Institute. For comparison, we tested also an LM made of a large private resource of newspaper and broadcast texts collected by a Czech media mining company. The LMs were analyzed and compared from the statistic point of view (mainly via their perplexity rates) and from the performance point of view when employed in large vocabulary continuous speech recognition systems. Our study shows that the Web1T-based LMs, even after intensive cleaning and normalization procedures, cannot compete with those made of smaller but more consistent corpora. The experiments done on large test data also illustrate the impact of Czech as highly inflective language on the perplexity, OOV, and recognition accuracy rates.
- ItemSoftware pro efektivní zpracování řečových databází(Technická Univerzita v Liberci, 2013-12-27) Čičkán, Martin; Žďánský, JindřichCílem diplomové práce je seznámit se s problematikou zpracování mluvených dokumentů a vytvořit počítačovou aplikaci pro jejich efektivní ruční zpracování. Program bude obsahovat potřebné nástroje pro efektivní zpracování mluvených dokumentů: podporu přehrávání zvukových a video souborů, zobrazení grafické podoby zvukových dat, nástroje pro správu seznamů mluvčích, kteří se v přepisech vyskytují, členění textového přepisu do přehledných úrovní a jeho ukládání ve vhodném formátu. Pro usnadnění ruční práce bude vytvářený software obsahovat podporu rozpoznávání spojité řeči (technologie v2t) pro automatické přepisování částí nebo celých mluvených dokumentů. Při návrhu grafického uživatelského prostředí aplikace bude kladen důraz na její intuitivní ovládání. Vybrané funkce budou moci být ovládány hlasem pomocí implementované technologie v2t.
- ItemUsing Deep Neural Networks for Identification of Slavic Languages from Acoustic Signal(2018) Matějů, Lukáš; Červa, Petr; Žďánský, Jindřich; Šafařík, RadekThis paper investigates the use of deep neural networks (DNNs) for the task of spoken language identification. Various feed-forward fully connected, convolutional and recurrent DNN architectures are adopted and compared against a baseline i-vector based system. Moreover, DNNs are also utilized for extraction of bottleneck features from the input signal. The dataset used for experimental evaluation contains utterances belonging to languages that are all related to each other and sometimes hard to distinguish even for human listeners: it is compiled from recordings of the 11 most widespread Slavic languages. We also released this Slavic dataset to the general public, because a similar collection is not publicly available through any other source. The best results were yielded by a bidirectional recurrent DNN with gated recurrent units that was fed by bottleneck features. In this case, the baseline ER was reduced from 4.2% to 1.2% and C-avg from 2.3% to 0.6%.
- ItemUTMJ OBU - Aplikační moduly a komunikace(Technická Univerzita v Liberci, 2011) Veselý, Petr; Žďánský, JindřichDiplomová práce se zabývá moţnostmi vývoje aplikací v rámci univerzální telematické mobilní jednotky, navrţené pro implementaci do pozemních dopravních prostředků. Aplikace jsou zaloţené na kombinaci GPS přijímače, který slouţí k lokalizaci vozidla, a GSM modulu, který zajišťuje komunikaci s okolním světem. Práce je zaměřena na vývoj telematických aplikačních modulů, konkrétně se jedná o záchranný systém tísňového volání eCall, jehoţ cílem je v případě dopravní nehody nebo ohroţení ţivota uvědomit příslušné záchranné sloţky o zeměpisné poloze vozidla a dalších potřebných informací pro co nejrychlejší a nejefektivnější reakci na vzniklou událost. Pro palubní jednotku byl také vyvinut aplikační modul Fleet, který tvoří základ správy vozového parku, jímţ je monitorování a lokalizace vozidel. Dalším aplikačním modulem je Toll, zabývající se výběrem mýtného elektronickou formou zaloţeného na satelitním určování pozice, či na mikrovlnné technologii DSRC, komunikující s mýtnou bránou. Dále práce pojednává o dnes jiţ standardní telematické aplikaci, kterou představuje navigační software. Jako aplikační modul pro navigaci byl pouţit Dynavix, který disponuje podrobnými mapami celé Evropy a nabízí širokou škálu funkcí a nastavení, které jsou od navigačního softwaru vyţadovány. Diplomová práce se také zabývá realizací komunikace mezi palubní jednotkou, telefonním centrem tísňového volání a poskytovatelem sluţeb, který získaná data dále zpracovává a poskytuje koncovým uţivatelům. Díky komunikaci palubní jednotky se sítí internet je otevřen prostor pro široké uplatnění této jednotky na poli telematických sluţeb, např. monitorování stavu vozidla, audiovizuální komunikaci s řidičem či další moţné online telematické aplikace.
- ItemUTMJ OBU - Jádro a uživatelské rozhraní(Technická Univerzita v Liberci, 2012) Dytrych, Jan; Žďánský, JindřichDiplomová práce se zabývá vývojem aplikace v rámci projektu MPO nazvaného ?Výzkum systémových poţadavků a architektury pro univerzální telematickou vozidlovou jednotku?. Univerzální vozidlovou jednotkou se rozumí hardware, který je instalován do pozemních dopravních prostředků. Aplikace pro univerzální telematickou jednotku je nazvána OBU a pouţívá nejmodernější technologie, které jsou v době vývoje celého projektu k dispozici. Mezi tyto technologie patří GPS, GSM, DSRC a jiné. Vzhledem k tomu, ţe na projektu se podílelo více subjektů a také lidí, je diplomová práce zaměřena hlavně na součásti jádra aplikace a uţivatelského rozhraní. Architekturu aplikace, která je v práci popsána, byla navrţena tak, aby dovolila hlavně flexibilitu aplikace. Architektura aplikace je rozdělena na tři hlavní součásti, které se dále dělí. Mezi tyto součásti patří jádro aplikace, poskytovatelé a moduly. Jádro aplikace v této architektuře zastává funkci centrálního bodu, který dovoluje komunikaci mezi ostatními součástmi aplikace. Jádro aplikace je přesně dané základními rozhraními, tudíţ je neměnné. Poskytovatelé v aplikaci poskytují data nebo sluţby. Poskytovatelé v rámci aplikace mohou být různí a jsou určovány v konfiguraci aplikace. Moduly v aplikaci zpracovávají data od poskytovatelů, nebo z databáze a je také moţné načíst libovolné mnoţství podle konfiguračních údajů. Diplomová práce se na konci zabývá problémem uţivatelského rozhraní, popisuje vyvinuté řešení, jeho moţnosti a strukturu včetně vlastního návrháře běţícího na počítači.