DSpace :: Browsing by Author "Červa, Petr"

Browsing by Author "Červa, Petr"

Now showing 1 - 17 of 17

Adaptation of speech recognition systems to selected real-world deployment conditions
(2021-11-26) Červa, Petr
Tato habilitační práce se zabývá problematikou adaptace systémů rozpoznávání řeči na vybrané reálné podmínky nasazení. Je koncipována jako sborník celkem dvanácti článků, které se touto problematikou zabývají. Jde o publikace, jejichž jsem hlavním autorem nebo spoluatorem, a které vznikly v rámci několika navazujících výzkumných projektů. Na řešení těchto projektů jsem se podílel jak v roli člena výzkumného týmu, tak i v roli řešitele nebo spoluřešitele. Publikace zařazené do tohoto sborníku lze rozdělit podle tématu do tří hlavních skupin. Jejich společným jmenovatelem je snaha přizpůsobit daný rozpoznávací systém novým podmínkám či konkrétnímu faktoru, který významným způsobem ovlivňuje jeho funkci či přesnost. První skupina článků se zabývá úlohou neřízené adaptace na mluvčího, kdy systém přizpůsobuje svoje parametry specifickým hlasovým charakteristikám dané mluvící osoby. Druhá část práce se pak věnuje problematice identifikace neřečových událostí na vstupu do systému a související úloze rozpoznávání řeči s hlukem (a zejména hudbou) na pozadí. Konečně třetí část práce se zabývá přístupy, které umožňují přepis audio signálu obsahujícího promluvy ve více než v jednom jazyce. Jde o metody adaptace existujícího rozpoznávacího systému na nový jazyk a metody identifikace jazyka z audio signálu. Obě zmíněné identifikační úlohy jsou přitom vyšetřovány zejména v náročném a méně probádaném režimu zpracování po jednotlivých rámcích vstupního signálu, který je jako jediný vhodný pro on-line nasazení, např. pro streamovaná data.
Automatická sumarizace textových dokumentů
(Technická Univerzita v Liberci, 2012) Rott, Michal; Červa, Petr
Dnešní svět je přehlcen informacemi a právě tato práce se snaží lidem usnadnit práci s informacemi vytvářením souhrnů těchto informací. V rámci výzkumu byly převážně z anglické literatury nastudovány metody vytvářející z rozsáhlých článků extrakty. Byly nastudovány sumarizační metody heuristické a statistické využívané v počátcích digitalizace textů, ale i moderní metody analyzující texty hlouběji. Hlavní pozornost byla věnována Luhnovu sumarizátoru a latentní sémantické analýze. Tyto metody byly také implementovány v jazyku C# na platformě Mono. Druhá část diplomové práce řeší problematiku evaluace implementovaných sumarizačních metod. Z literatury a vědeckých článků byly nastudovány techniky používané pro měření a hodnocení automaticky generovaných souhrnů. Pro vlastní provedení evaluace byl využit program ROUGE, využívaný pro tento účel i na konferencích Text Analysis Conference. V rámci evaluace bylo provedeno několik experimentů s různými nastaveními sumarizace a byly vyhodnoceny i volně dostupné sumarizátory.
Comparison of generative and discriminative approaches for speaker recognition with limited data
(2009) Silovský, Jan; Červa, Petr; Žďánský, Jindřich
This paper presents a comparison of three different speaker recognition methods deployed in a broadcast news processing system. We focus on how the generative and discriminative nature of these methods affects the speaker recognition framework and we also deal with intersession variability compensation techniques in more detail, which are of great interest in broadcast processing domain. Performed experiments are specific particularly for the very limited amount of data used for both speaker enrollment (typically ranging from 30 to 60 seconds) and recognition (typically ranging from 5 to 15 seconds). Our results show that the system based on Gaussian Mixture Models (GMMs) outperforms both systems based on Support Vector Machines (SVMs) but its drawback is higher computational cost.
Cost-Efficient Development of Acoustic Models for Speech Recognition of Related Languages
(Spolecnost Pro Radioelektronicke Inzenyrstvi, 2013) Nouza, Jan; Červa, Petr; Kuchařová, Michaela
When adapting an existing speech recognition system to a new language, major development costs are associated with the creation of an appropriate acoustic model (AM). For its training, a certain amount of recorded and annotated speech is required In this paper, we show that not only the annotation process, but also the process of speech acquisition can be automated to minimize the need of human and expert work. We demonstrate the proposed methodology on Croatian language, for which the target AM has been built via cross-lingual adaptation of a Czech AM in 2 ways: a) using the commercially available GlobalPhone database, and b) by automatic speech data mining from HRT radio archive. The latter approach is cost-free, yet it yields comparable or better results in experiments conducted on 3 Croatian test sets.
A cross-lingual adaptation approach for rapid development of speech recognizers for learning disabled users
(Springer International Publishing Ag, 2014) Boháč, Marek; Kuchařová, Michaela; Callejas, Zoraida; Nouza, Jan; Červa, Petr
Building a voice-operated system for learning disabled users is a difficult task that requires a considerable amount of time and effort. Due to the wide spectrum of disabilities and their different related phonopathies, most approaches available are targeted to a specific pathology. This may improve their accuracy for some users, but makes them unsuitable for others. In this paper, we present a cross-lingual approach to adapt a general-purpose modular speech recognizer for learning disabled people. The main advantage of this approach is that it allows rapid and cost-effective development by taking the already built speech recognition engine and its modules, and utilizing existing resources for standard speech in different languages for the recognition of the usersatypical voices. Although the recognizers built with the proposed technique obtain lower accuracy rates than those trained for specific pathologies, they can be used by a wide population and developed more rapidly, which makes it possible to design various types of speech-based applications accessible to learning disabled users.
Jazyková adaptace systému MyVoice z češtiny do slovenštiny
(Technická Univerzita v Liberci, 2013-12-20) Pavlík, Jan; Červa, Petr
Hlavním cílem této bakalářské práce bylo adaptovaní českého programu MyVoice na slovenský jazyk. Tento program je primárně určen pro handicapované lidi a slouží k ovládání počítače hlasem. Díky mezijazykové adaptaci dokážeme využít soubory a zdroje dostupné v jednom jazyce k počítačovému rozpoznávání v jiných jazycích, v tomto případě jsem tedy použil mezijazykovou adaptaci k přetvoření českého programu na jeho slovenskou verzi. Prvním a stěžejním krokem k vytvoření slovenské verze systému MyVoice bylo namapování slovenských specifických fonémů na již existující sadu českých fonémů. Dále bylo potřeba přeložit všechny hlasové povely sytému MyVoice do slovenštiny a nakonec vytvořit zvukovou databázi slovenských slov na testování výsledného produktu. Tuto práci jsem rozdělil na několik částí, v první jsem se zabýval teoretickými poznatky týkajících se mezijazykové adaptace, fonetické transkripce, fonologie a jazykovými rozdíly mezi češtinou a slovenštinou. V další části jsem popsal vlastní proces tvorby slovenské verze systému MyVoice a v závěrečné části naleznete popis a výsledky testů, které ukázali jak úspěšně se MyVoice adaptoval na slovenský jazyk.
MAP Based Speaker Adaptation in Very Large Vocabulary Speech Recognition of Czech
(Spolecnost Pro Radioelektronicke Inzenyrstvi, 2004) Červa, Petr; Nouza, Jan
The paper deals with the problem of efficient adaptation of speech recognition systems to individual users. The goal is to achieve better performance in specific applications where one known speaker is expected. In our approach we adopt the MAP (Maximum A Posteriori) method for this purpose. The MAP based formulae for the adaptation of the HMM (Hidden Markov Model) parameters are described. Several alternative versions of this method have been implemented and experimentally verified in two areas, first in the isolated-word recognition (IWR) task and later also in the large vocabulary continuous speech recognition (LVCSR) system, both developed for the Czech language. The results show that the word error rate (WER) can be reduced by more than 20% for a speaker who provides tens of words (in case of IWR) or tens of sentences (in case of LVCSR) for the adaptation. Recently, we have used the described methods in the design of two practical applications: voice dictation to a PC and automatic transcription of radio and TV news.
Metody adaptace systému rozpoznávání řeči na konkrétního mluvčího
Červa, Petr
Optimalizace procesu tepelného zpracování (TZ) odlitků ze šedé litiny odlévaných do kovových forem
Červa, Petr
Řízená a neřízená adaptace na mluvčího v systémech rozpoznávání řeči
(Technická Univerzita v Liberci, ) Červa, Petr
Řízená a neřízená adaptace na mluvčího v systémech rozpoznávání řeči.
(Technická Univerzita v Liberci, 2007) Červa, Petr; Nouza, Jan
Tvorba aplikací rozšiřujících možnosti hlasových systémů pro handicapované osoby.
(Technická Univerzita v Liberci, 2013-12-27) Nový, Jaroslav; Červa, Petr
Diplomová práce je zaměřena na tvorbu aplikací rozšiřující možnosti hlasových systémů pro handicapované osoby, konkrétně systému MyVoice, který byl vytvořen na Technické Univeryitě v Liberci. Systém je určen pro handicapované osoby, které díky svému postižení nemohou ovládat počítač jinak než hlasovými povely. Praktická část práce se věnuje zdokonalení systému MyVoice v oblastech procházení internetových stránek a ovládání kurzoru polohovacího zařízení. K vylepšení procházení internetových stránek bylo vyvinuto rozšíření LinkByKey pro internetový prohlížeč Mozilla Firefox, které umožňuje ve spojení se systémem MyVoice aktivovat libovolný odkaz na internetové stránce pouze dvěma hlasovými povely. Ovládání kurzoru polohovacího zařízení v systému MyVoice probíhá prostřednictvím povelů, například: Doleva 50, Nahoru 200, kde číslovka udává vzdálenost posunu kurzoru v pixelech. Navržená aplikace MouseCursorHelper zobrazuje v okolí kurzoru kružnice a přímky, které napomáhají k odhadu vzdáleností objektů od kurzoru. Tímto způsobem lze minimalizovat počet povelů nutných k dosažení objektu a zefektivnit tak práci s osobním počítačem.
Tvorba systému rozpoznávání řeči pro angličtinu
(Technická Univerzita v Liberci, 2014) Matějů, Lukáš; Červa, Petr
Práce se zabývá tvorbou systému rozpoznávání řeči pro anglický jazyk z hlediska akustického a jazykového modelování. Práce má teoreticko-praktický charakter s částí věnovanou experimentům. Seznámení se základními přístupy k trénování modelů bylo hlavní náplní teoretické části. Cílem praktické části bylo shromáždění akustických, lexikálních a jazykových dat a za pomoci vhodných nástrojů navržení trénovacích skriptů. Cílem experimentální části bylo vyhodnocení natrénovaných modelů na vhodných testovacích sadách a konverze nejlepších modelů do prostředí aplikace Newton Dictate, která je založená na rozpoznávači vyvíjeném na Technické Univerzitě v Liberci.
Tvorba vestavěného rozpoznávače izolovaných slov pro platformu Windows Mobile
(Technická Univerzita v Liberci, 2013-12-20) Kašpárek, Michal; Červa, Petr
Diplomová práce se zabývá rozpoznáváním izolovaných slovních povelů mobilním zařízením s prostředím Windows Mobile. Jsou zde použity a vysvětleny postupy přístupu ke zvukovému hardwaru v tomto OS, základní parametrizační techniky, rozpoznávání za použití metody dynamického programování a v neposlední řadě je popsána tvorba funkčního aplikačního prostředí kalkulačky s vnitřní logikou schopnou korigovat a opravovat chyby procesu rozpoznávání způsobené vnějšími vlivy.
Using Deep Neural Networks for Identification of Slavic Languages from Acoustic Signal
(2018) Matějů, Lukáš; Červa, Petr; Žďánský, Jindřich; Šafařík, Radek
This paper investigates the use of deep neural networks (DNNs) for the task of spoken language identification. Various feed-forward fully connected, convolutional and recurrent DNN architectures are adopted and compared against a baseline i-vector based system. Moreover, DNNs are also utilized for extraction of bottleneck features from the input signal. The dataset used for experimental evaluation contains utterances belonging to languages that are all related to each other and sometimes hard to distinguish even for human listeners: it is compiled from recordings of the 11 most widespread Slavic languages. We also released this Slavic dataset to the general public, because a similar collection is not publicly available through any other source. The best results were yielded by a bidirectional recurrent DNN with gated recurrent units that was fed by bottleneck features. In this case, the baseline ER was reduced from 4.2% to 1.2% and C-avg from 2.3% to 0.6%.
Využití hlubokých neuronových sítí v systémech rozpoznávání řeči
(Technická Univerzita v Liberci, 2014) Paroubek, Martin; Červa, Petr
Práce se zabývala využitím nového hybridního systému DNN-HMM pro rozpoznávání řeči. V teoretické části byla představena základní problematika rozpoznávání řeči a neuronových sítí. Na základě těchto informací bylo možné představit hluboké neuronové sítě a jejich propojení s HMM systémem. Z důvodu velkého množství různých parametrů pro trénování neuronových sítí proběhla rešerše existujících postupů a jejich výsledků, kterými byla inspirována praktická část. Cílem praktické části bylo prozkoumat vliv uspořádání neuronové sítě, vliv předtrénování a vliv velikosti trénovacího korpusu na přesnost rozpoznávání. Na základě těchto výsledků byl vytvořen akustický model, který byl porovnán se současným systémem pro rozpoznávání řeči GMM-HMM. Trénování neuronových sítí probíhalo na GPU použitím modifikovaných skriptů knihovny Theano. Následné vyhodnocení bylo provedeno pomocí vlastních skriptů. K dispozici byl trénovací korpus s 56 hodinami polské řeči a vytvořené modely byly odzkoušeny na 3 testovacích sadách obsahujících publicistický a odborný styl. K porovnání výsledků byla použita tzv. accuracy. Celkem bylo takto vytvořeno více než 250 akustických modelů, které se také lišily dobou trénování, neboť kriterium ukončení trénování je stále předmětem zkoumání. Celkem doba k jejich natrénování zabrala více než 62 dní. Bylo zjištěno, že využití neuronových sítí, jakožto akustických modelů, přináší několikaprocentní zlepšení oproti současnému systému a zároveň také že diskriminativní předtrénování nemá žádný vliv na přesnost sítě. Dále byla popsána topologie s nejvyšší přesností a bylo zjištěno, že vliv množství dat v trénovacím korpusu může být závislý na kontextu testovací sady.
Zařízení pro kontrolované vedení bočního posuvu dopravníkových pásů
Červa, Petr; Bílek Martin, doc. Ing. Ph.D. : 55358; Manlig František, doc. Dr. Ing. Skolitel : 55383; Lepšík Petr, doc. Ing. Ph.D. Konzultant : 57619; Sporka Michal, Ing. Ph.D. Konzultant2 : 64767
Tato bakalářská práce se zabývá konkrétním řešením kontrolovaného vedení bočního posuvu dopravníkového pásu a rozebírá jeho jednotlivé části. První část práce se zabývá teoretickým rozborem problematiky. Druhá část uvádí rešerši možných řešení na základě odborné literatury. Poslední část obsahuje konstrukční řešení. Obsahuje též základní principy pro kontrolované vedení bočního posuvu dopravníkového pásu a patentovou rešerši.

Browsing by Author "Červa, Petr"

Results Per Page

Sort Options