Browsing by Author "Nouza, Jan"
Now showing 1 - 20 of 24
Results Per Page
Sort Options
- ItemAutomatic classifiers for medical data from doppler unit(Czech Technical University, 2007-01-01) Málek, Jiří; Nouza, Jan; Klimovič, TomášNowadays, hand-held ultrasonic Doppler units are often used for noninvasive screening of atherosclerosis in arteries of the lower limbs. The mean velocity of blood flow in time and blood pressures are measured on several positions on each lower limb. This project presents soft-ware that is able to analyze such data and classify it in real time into selected diagnostic classes. It is also capable of giving a notice of some errors encountered during meas-uring. At the Department of Functional Diagnostics in the Regional Hospital of Liberec a database of several hun-dreds signals was collected. In cooperation with the spe-cialist, the signals were manually classified into four classes. Consequently selected signal features were ex-tracted and used for training a distance and a Bayesian classifier. Another set of signals was used for evaluating and optimizing the parameters of the classifiers. This paper compares the results of the software with those provided by a human expert. They agreed in 89 % cases.
- ItemAutomatické opravy skenovaných historických textů s využitím pravděpodobnostních modelů(Technická Univerzita v Liberci, 2014-01-01) Kounovský, Tomáš; Nouza, JanTato práce se zabývá problematikou využití OCR pro digitalizaci historických textů, konkrétně plně automatickými post-OCR opravami chyb. Práce se zaměřuje hlavně na využití pravděpodobnostních metod, jako jsou statistiky znakových záměn a pravděpodobnostní jazykové modely. Cílem této práce je vytvoření a zhodnocení postupů a nástrojů, jenž umožní co nejspolehlivěji snížit procento neslovných chyb způsobených digitalizací ročníků 1945 až 1983 deníku Rudé Právo. Výsledkem práce jsou dva systémy, pomocí nichž byly provedeny automatické opravy na výše zmíněných textových dokumentech. První z nich, založen na výpočtu pravděpodobnosti, zvládá opravit až 6,97 % vstupních chyb při spolehlivosti oprav až 83 %. Druhý systém, využívající algoritmus založený na vlastní skórovací metodě, zvládá opravit až 5,7 % vstupních chyb při spolehlivosti oprav až 92 %.
- ItemAutomatický převod polyfonní melodie do notového zápisu(Technická Univerzita v Liberci, 2013-12-20) Boháč, Marek; Nouza, JanCílem práce je navrhnout a realizovat program pro převod nahrávky polyfonní hudební melodie do notového zápisu. Poznatky z akustické teorie hudby jsou využity k vytvoření speciálních algoritmů určených k analýze číslicových signálů, které představují zkoumanou nahrávku. Informace z oblasti psychoakustiky byly také využity k definování struktury modelů nástrojů. Program musí nejprve identifikovat časový průběh nahrávky. Je potřeba určit jednotlivé hrané tóny, jejich délku a identifikovat nástroje, kterými jsou tóny interpretovány. Klíčovým problémem této části programu je detekce přítomnosti hrané oktávy. Druhým krokem je převod časového průběhu do notového záznamu, ke kterému jsou zapotřebí informace o taktu a tempu skladby. Algoritmy jsou navrženy se zvláštním zaměřením na analýzu dechových a žesťových nástrojů. Pro tuto skupinu nástrojů je provedeno vyhodnocení úspěšnosti programu. K analýze dalších skupin nástrojů (např. strunných) jsou navrženy dílčí úpravy a rozšíření použitých algoritmů a modelů nástrojů.
- ItemCost-Efficient Development of Acoustic Models for Speech Recognition of Related Languages(Spolecnost Pro Radioelektronicke Inzenyrstvi, 2013-01-01) Nouza, Jan; Červa, Petr; Kuchařová, MichaelaWhen adapting an existing speech recognition system to a new language, major development costs are associated with the creation of an appropriate acoustic model (AM). For its training, a certain amount of recorded and annotated speech is required In this paper, we show that not only the annotation process, but also the process of speech acquisition can be automated to minimize the need of human and expert work. We demonstrate the proposed methodology on Croatian language, for which the target AM has been built via cross-lingual adaptation of a Czech AM in 2 ways: a) using the commercially available GlobalPhone database, and b) by automatic speech data mining from HRT radio archive. The latter approach is cost-free, yet it yields comparable or better results in experiments conducted on 3 Croatian test sets.
- ItemA cross-lingual adaptation approach for rapid development of speech recognizers for learning disabled users(Springer International Publishing Ag, 2014-01-01) Boháč, Marek; Kuchařová, Michaela; Callejas, Zoraida; Nouza, Jan; Červa, PetrBuilding a voice-operated system for learning disabled users is a difficult task that requires a considerable amount of time and effort. Due to the wide spectrum of disabilities and their different related phonopathies, most approaches available are targeted to a specific pathology. This may improve their accuracy for some users, but makes them unsuitable for others. In this paper, we present a cross-lingual approach to adapt a general-purpose modular speech recognizer for learning disabled people. The main advantage of this approach is that it allows rapid and cost-effective development by taking the already built speech recognition engine and its modules, and utilizing existing resources for standard speech in different languages for the recognition of the usersatypical voices. Although the recognizers built with the proposed technique obtain lower accuracy rates than those trained for specific pathologies, they can be used by a wide population and developed more rapidly, which makes it possible to design various types of speech-based applications accessible to learning disabled users.
- ItemDigitální záznam a analýza telefonních hovorů na mobilním přístroji(Technická Univerzita v Liberci, 2013-01-01) Reif, Luděk; Nouza, JanPráce je zaměřena na vytvoření programu pro nahrávání na mobilním telefonu, na analýzu a následné vyhodnocení těchto nahrávek. Program je napsán pro operační systém Android. Pomocí něj byla vytvořena databáze nahrávek telefonních hovorů, ke kterým vznikly přepisy s příslušnými časovými údaji. Databáze obsahuje celkem padesáti telefonních hovorů od deseti osob v minimální délce dvou minut. Na nahrávky a samotné přepisy byly použity vlastní analytické metody, které vyhodnocují jak jednotlivé telefonní hovory, tak i hovory jako celek. Aktivita v hovoru, vyhodnocení překryvů a mezer, rychlost mluvení a četnost vyřčených slov jsou metody postavené na textových přepisech. Metoda využívající spektrální analýzu je postavena na zpracování samotných nahrávek. Práce obsahuje také vyhodnocení jednotlivých analýz provedených na připravené databázi.
- ItemDiscrete-utterance recognition with a fast match based on total data reduction(IEEE, Piscataway, NJ, United States, 1996-01-01) Nouza, JanIn the paper, a two-level classification scheme applicable to practical discrete-utterance recognition systems is presented. Both the fast and fine match employ CDHMM whole-word models. The fast match is based on total data reduction, which includes both the minimalization of the acoustic data flow (the numbers of speech frames and features) and the reduction of the basic HMM parameters (the numbers of states and mixtures). The optimal choice of the fast match parameters is a subject of the procedure that aims at minimizing the total classification time while preserving the maximum available recognition accuracy. On a medium-size vocabulary task (121 city names) the fast match reduced recognition time to approx. 20% (compared with the original one-level system) with a negligible loss of accuracy. The time savings were even more considerable in case of a system with multi-mixture HMMs.
- ItemFast Keyword Spotting in Telephone Speech(Spolecnost Pro Radioelektronicke Inzenyrstvi, 2009-01-01) Nouza, Jan; Silovský, JanIn the paper, we present a system designed for detecting keywords in telephone speech. We focus not only on achieving high accuracy but also on very short processing time. The keyword spotting system can run in three modes: a) an off-line mode requiring less than 0.1xRT, b) an on-line mode with minimum (2 s) latency, and c) a repeated spotting mode, in which pre-computed values allow for additional acceleration. Its performance is evaluated on recordings of Czech spontaneous telephone speech using rather large and complex keyword lists.
- ItemFeature selection methods for hidden Markov model-based speech recognition(Institute of Electrical and Electronics Engineers Inc., 1996-01-01) Nouza, JanIn the paper three different feature selection methods applicable to speech recognition are presented and discussed. Widely known approaches, like the principal component analysis, discriminant feature analysis and sequential search methods, have been customised for the use with a hidden Markov model based classifier. When comparing the methods we focus mainly on their ability to reduce the size of the feature vectors standardly used in speech processing. It is demonstrated that the sequential methods and the discriminative analysis are well suited for that task. Both of them may contribute to a recognition time reduction by a factor higher than two without a significant loss of accuracy, particularly, in the combination with a two-level classification scheme. © 1996 IEEE.
- ItemGenerativní a diskriminativní klasifikátory v úlohách textově nezávislého rozpoznávání a diarizace mluvčích(Technická Univerzita v Liberci, 2011-01-01) Silovský, Jan; Nouza, JanTato disertační práce se zabývá problematikou textově nezávislého rozpoznávání mluvčích. V úvodní části jsou ve stručnosti vysvětleny základní pojmy a úlohy rozpoznávání mluvčích, je stručně popsán současný stav problematiky, představena motivace pro využití informace o identitě mluvčích v systémech vyvíjených Laboratoří počítačového zpracování řeči na Technické univerzitě v Liberci (TUL) a na základě toho stanoveny cíle práce. Samostatná kapitola je věnována metodám používaným pro vyhodnocování úspěšnosti rozpoznávání, včetně metod pro takzvané aplikačně nezávislé vyhodnocení, a metodám pro kalibraci a fúzi systémů. V následující kapitole jsou postupně představeny metody založené na generativních modelech, od standardních metod využívajících modely reprezentované směsí Gaussovských rozložení, po moderní metody založené na různých formách faktorové analýzy. V kapitole věnované metodám založeným na diskriminativním principu je pozornost soustředěna na metody založené na podpůrných vektorech a speciální jádrové funkce navržené pro úlohu rozpoznávání mluvčích. Na příkladu aplikace rozpoznávání mluvčích v záznamech televizních a rozhlasových pořadů jsou diskutovány některé rozdílné charakteristiky dat standardních evaluačních databází a reálných aplikací. Následně jsou předloženy výsledky experimentálního vyhodnocení několika systémů, založených na generativním i diskriminativním přístupu, na vytvořené evaluační databázi českých televizních a rozhlasových pořadů. Jazykové omezení umožňuje využití systémů vyvinutých na TUL pro získání automatického přepisu nahrávek a jeho použití při rozpoznávání mluvčích. Následující kapitola shrnuje popis vývoje systémů pro účast TUL v evaluaci systémů pro rozpoznávání mluvčích pořádané americkým Úřadem pro standardy a technologii (NIST) v roce 2010. Jedním z hlavních přínosů práce je pak návrh několika přístupů pro shlukování mluvčích v rámci úlohy diarizace audiozáznamů, včetně návrhu dvoufázového schématu shlukování s využitím těchto přístupů. Ty vycházejí z principů metod navržených pro rozpoznávání mluvčích a jsou založeny na faktorové analýze. Experimentální vyhodnocení prezentovaných přístupů je provedeno na základě databáze televizních a rozhlasových zpravodajských pořadů vytvořené s využitím dat korpusu COST278.
- ItemIdentifikace jazyka textového dokumentu(Technická Univerzita v Liberci, 2012-01-01) Valta, Jan; Nouza, JanDiplomová práce se zabývá problematikou identifikace jazyka textového dokumentu pomocí statistických n-gramových modelů. Teoretická část popisuje statistický n-gramový model, jeho vytváření a vyhodnocování. Dále popisuje základní vyhlazovací techniky a typy n-gramových modelů. Praktická část porovnává výsledky identifikace jazyka pro různé n-gramové modely, které se liší ve vyhlazovací technice, stupni a typu modelu. Dále pak zjišťuje vliv diakritiky při identifikaci jazyka.
- ItemMAP Based Speaker Adaptation in Very Large Vocabulary Speech Recognition of Czech(Spolecnost Pro Radioelektronicke Inzenyrstvi, 2004-01-01) Červa, Petr; Nouza, JanThe paper deals with the problem of efficient adaptation of speech recognition systems to individual users. The goal is to achieve better performance in specific applications where one known speaker is expected. In our approach we adopt the MAP (Maximum A Posteriori) method for this purpose. The MAP based formulae for the adaptation of the HMM (Hidden Markov Model) parameters are described. Several alternative versions of this method have been implemented and experimentally verified in two areas, first in the isolated-word recognition (IWR) task and later also in the large vocabulary continuous speech recognition (LVCSR) system, both developed for the Czech language. The results show that the word error rate (WER) can be reduced by more than 20% for a speaker who provides tens of words (in case of IWR) or tens of sentences (in case of LVCSR) for the adaptation. Recently, we have used the described methods in the design of two practical applications: voice dictation to a PC and automatic transcription of radio and TV news.
- ItemMetody měření podobnosti jazyků(Technická Univerzita v Liberci, 2014-01-01) Šafařík, Radek; Nouza, JanTato diplomová práce je zaměřena na měření podobnosti evropských jazyků v jejich psané a mluvené formě. Pro měření podobnosti v mluvené formě se práce zaměřuje pouze na slovanské jazyky. Práce začíná teoretickým úvodem do komparativní lingvistiky a popisuje základní pojmy a principy hledání podobnosti jazyků. Jako zdroj dat pro měření podobnosti jsou použity různé textové korpusy a slovníky, které jsou dále podrobně popsány. Dále práce popisuje postupy pro předzpracování textů, vytvořený systém pro fonetickou transkripci textů do mezinárodní fonetické abecedy, metody použité pro měření podobnosti a výsledné vyhodnocení naměřených dat. Pro měření podobnosti jsou použity metody pracující s textovými řetězci a množinami znaků.
- ItemModerní metody analýzy a identifikace(Technická univerzita v Liberci, 1990-01-01) Nouza, Jan; Stach, Vladimír; Novák, Ondřej; Katedra elektrotechnikyÚkol K 329 řešený na katedře elektrotechniky VS5T v rámci fakultního plánu výzkumu formálně navazuie na předchozí sérii prací, které se zabývaly využitím moderní výpočetní techniky a možnostmi nasazení personálních počítačů v různých sférách výuky a výzkumu. Původní široké zaměření úkolu však bylo v průběhu prvních měsíců roku 1390 nově specifikováno s cílem věnovat maximální pozornost novým trendům v oblasti tzv. umělé inteligence. Toto nové zaměření se promítlo do nového názvu úkolu a rovněž i do změny řešitelského týmu. Cílem společného zájmu všech tří řešitelů úkolu bylo seznámit se s problematikou neuronových sítí, jakožto potenciálního prostředku pro řešení úloh z různých oblasti, jimiž se jednotliví řešitelé hlouběji zabývají. Jde především o možné aplikace na poli rozpoznávání mluvené řeči, identifikace vizuální informace a diagnostiky počítačů. Snahou tedy bylo sjednotit úsilí až dosud věnované poněkud izolovaně různým zájmovým oblastem k hledání univerzálních prostředků a efektivních metod, které by mohly vést k významějším pokrokům při dalších výzkumech v uvedených oblastech. Řešitelé si rovněž vytkli za cíl přispět tímto úkolem k rozšíření dosavadního profilu katedry o obory spaiené s problematikou umělé inteligence, a to jak na úrovni výzkumu, tak na úrovni pedagogického procesu. V rámci řešení bylo proto pamatováno i na hledisko použitelnosti některých výsledků práce (zejména demonstračních programů) ve výuce v nově navrhovaném předmětu, který by se zabývat základy umělé inteligence.
- ItemMorfologický generátor pro češtinu(Technická Univerzita v Liberci, 2011-01-01) Ozogán, Pavel; Nouza, JanTato bakalářská práce se zabývá vytvoření morfologického generátoru pro češtinu, který bude využitý pro tvorbu slovníků v psané a fonetické podobě. V úvodní části je vysvětlen pojem morfologie a podrobněji popsán cíl práce. Ve druhé části je podrobněji rozebrána morfologie češtiny a způsob vytvoření morfologického generátoru, který bude slova tvarovat podle základních vzorů a seznamu nejčastějších výjimek. Ve třetí částí je ukázána realizace morfologického generátoru v jazyce C\# (platforma .NET). V další části byla zkoumána úspěšnost programu na slovech z článku, který je uveden v příloze, a byly uvedeny výsledky pro jednotlivé slovní druhy. V závěru jsou výsledky zhodnoceny.
- ItemPerformance of Czech Speech Recognition with Language Models Created from Public Resources(Spolecnost Pro Radioelektronicke Inzenyrstvi, 2011-01-01) Procházka, Václav; Pollak, Petr; Žďánský, Jindřich; Nouza, JanIn this paper, we investigate the usability of publicly available n-gram corpora for the creation of language models (LM) applicable for Czech speech recognition systems. N-gram LMs with various parameters and settings were created from two publicly available sets, Czech Web 1T 5-gram corpus provided by Google and 5-gram corpus obtained from the Czech National Corpus Institute. For comparison, we tested also an LM made of a large private resource of newspaper and broadcast texts collected by a Czech media mining company. The LMs were analyzed and compared from the statistic point of view (mainly via their perplexity rates) and from the performance point of view when employed in large vocabulary continuous speech recognition systems. Our study shows that the Web1T-based LMs, even after intensive cleaning and normalization procedures, cannot compete with those made of smaller but more consistent corpora. The experiments done on large test data also illustrate the impact of Czech as highly inflective language on the perplexity, OOV, and recognition accuracy rates.
- ItemPhonetic alphabet for speech recognition of Czech(Czech Technical University, 1997-01-01) Nouza, Jan; Psutka, Josef; Uhlíř, Jan
- ItemŘízená a neřízená adaptace na mluvčího v systémech rozpoznávání řeči.(Technická Univerzita v Liberci, 2007-01-01) Červa, Petr; Nouza, Jan
- ItemRozpoznávání mluvčích v záznamech televizních a rozhlasových pořadů(Technická Univerzita v Liberci, 2006-01-01) Silovský, Jan; Nouza, JanDiplomová práce se zabývá návrhem systému rozpoznávání mluvčích. Po stručném úvodu do problematiky rozpoznávání mluvčích a přehledu současného stavu je vysvětlena souvislost hlasových charakteristik a použitých melovských kepstrálních příznaků (MFCC). Práce se dále soustřeďuje na přístupy k reprezentaci modelů mluvčích v textově nezávislých systémech, vektorovou kvantizaci (VQ) a zejména směsi Gaussovských rozložení (GMM). Hlavní motivací práce je vytvoření modulu rozpoznávání mluvčích integrovatelného do systému kompletního automatického přepisu televizních a rozhlasových pořadů a tomu odpovídá formulace požadavků a návrh řešení. Byla provedena řada experimentů zabývajících se mimo jiné různými způsoby vyhodnocení identifikace a verifikace mluvčích, porovnáním vlivu různých metod estimace parametrů modelů, nebo významem detekce hlasových framů. Na jejich základě se podařilo nalézt vhodnou kombinaci metod a jejich nastavení. Při poměrně vysokém počtu 306 referenčních řečníků se podařilo dosáhnout úspěšnosti rozpoznávání více než 81 %.
- ItemSoftwarová podpora přepisu přednášek z videozáznamů(Technická Univerzita v Liberci, 2011-01-01) Rameš, Jan; Nouza, JanTato práce se zabývá automatickým přepisem spontánní řeči především pro oblast přepisu přednášek s možností jejich oprav, nutnosti adaptace slovníků (gramatických modelů) a odlišností od diktovacích systémů. Součástí práce je také ukázka přístupu, jak nakládat s přepsanými texty s využitím webových technologií s důrazem na možnost spolupráce více osob při opravě přepisů. Výsledná aplikace je realizována jako server-klient, kdy klientská část využívá HTML a JavaScriptu společně s přehrávačem Flash k realizaci kompletního uživatelského rozhraní pro opravu a kontrolu přepisu, zobrazení výsledných titulků uvnitř videa pro snadné přehrávání. Dále nastiňuje způsob využití indexace pro nalezení relevantního obsahu v zaznamenaných přednáškách. V první části je rozebrána problematika rozpoznávání řeči používaná v přepisovači a dalších použitých nástrojích. Druhá část obsahuje popis konkrétních metod, knihoven a frameworků, které byly při tvorbě aplikace použity. V závěru této části jsou popsány podobné technologie, které se přepisu spontánní řeči také věnují. V dalších kapitolách je nejprve nastíněn přístup řešení a následně jsou podrobně popsány přístupy k řešení daného problému s důrazem na jejich využití na webu. Závěr této části je věnován způsobům vyhodnocení úspěšnosti přepisů využívajícím různá měřítka pro vhodné zhodnocení úsilí, jaké musí být vynaloženo k opravě přepsaného textu. Závěr práce je věnován vyhodnocení výsledků pomocí metod popsaných v části předchozí. Je zde také nastíněna řada oblastí, ve kterých je možné v řešení tohoto problému pokračovat, především je pak zdůrazněna nutnost adaptace slovníků pro daný obor přednášky.