dc.contributor
dc.contributor.advisor
dc.contributor.author	Šafařík, Radek
dc.contributor.other	Nouza Jan, prof. Ing. CSc. Skolitel : 54737
dc.date.accessioned	2021-04-26T17:46:54Z
dc.date.available	2021-04-26T17:46:54Z
dc.date.committed	2018-7-31
dc.date.defense	2021-03-18
dc.date.issued	2021-03-18
dc.date.submitted	2014-8-1
dc.date.updated	2021-4-22
dc.degree.level	Ph.D.
dc.description.abstract	Tato disertační práce se zabývá problematikou tvorby systémů automatického rozpoznávání řeči (ASR), respektive efektivní adaptací již existujícího systému na nový jazyk. Současné ASR systémy mají modulární architekturu a jednotlivé moduly se dají rozdělit na jazykově závislé a nezávislé. Hlavním cílem této práce je výzkum a vývoj metod, které v co největší míře zautomatizují a zefektivní průběh vývoje jazykově závislých modulů systému za využití volně dostupných dat na internetu, metod strojového učení a podobností mezi jazyky. Text je doprovázen dokumentovanou aplikací a testováním těchto metod na všechny hlavní slovanské jazyky. Práce je navázána na výzkumné projekty zabývající se vývojem monitorovacích systémů televizního a rozhlasového vysílání ve slovanských jazycích. V první části práce jsou popsány základní pojmy a současný stav poznání zaměřující se na jednotlivé moduly a části vývoje ASR systémů. Následuje popis zpracovávaných slovanských jazyků s ohledem na problematiku ASR. Hlavní část práce je pak rozdělena na dvě části. První část se zaměřuje na výzkum a vývoj v oblasti lingvisticko-lexikální a druhá v oblasti akusticko-fonetické. Lingvisticko-lexikální část se zabývá vývojem jazykového korpusu, výslovnostního slovníku a jazykového modelu. Jsou zde popsány principy a postupy, jak efektivně získávat a zpracovávat textová data z internetu pro tvorbu těchto modulů. Při zpracování je potřeba texty korpusu vyčistit od nevhodných elementů, normalizovat, aplikovat jazykové filtrování a případně vyřešit převod abeced pro jazyky používající jinou abecedu než latinku, k čemuž byla navržena převodní abeceda pro jazyky píšící v cyrilici. Z korpusu jsou vybrána slova do slovníku a následně vypočítán statistický jazykový model. Akusticko-fonetická část se zabývá definicí fonetického inventáře, tvorbou výslovnosti pro slova ve slovníku a vývojem akustického modelu (AM). Nejprve jsou popsány principy výběru fonémů pro nový jazyk a přístupy k tvorbě výslovností pro slova ve slovníku. Dále jsou podrobně rozebrány postupy získávání akustických dat z internetu a jejich zpracování na trénovací data pro vytvoření AM. Popsány jsou tři přístupy tvorby AM. První, supervizovaný, využívá nahrávky s jejich fonetickou anotací, ze kterých je natrénován AM. Druhý, tzv. lehce supervizovaný, využívá nahrávky spolu s asociovaným textem, který může, a nemusí obsahovat promluvy v nahrávce. Nahrávky jsou rozpoznány existujícím systémem a je hledána shoda mezi výstupem rozpoznávače a přidruženým textem. Shodné části jsou vyříznuty a přidány do trénovací sady. Nahrávky jsou postupně vytěžovány iterativním procesem. V případě, že je započat vývoj systému pro nový jazyk, může zde být využito akustických dat z jiného, již zvládnutého jazyka, kde je pak využito multilingválního sytému pro získávání dat pro cílový jazyk. Třetí, nesupervizovaný, přístup využívá několik různých ASR systémů pro tvorbu dat pouze z nahrávek, které nemají žádný přidružený text. Nahrávky jsou rozpoznány všemi systémy, a pokud se výstupy shodují, výsledný výstup je použit jako fonetická anotace. Pro otestování všech systémů byly vytvořeny standardizované testovací sady z reálného prostředí. Na nich byly otestovány finální verze systémů pro zhodnocení jejich použitelnosti v praxi při monitorování médií. Většina systémů dosáhla výsledků pod 20 % Word Error Rate. Na závěr byly navržené metody otestovány i na třech dalších evropských jazycích. Vývoj probíhal převážně automaticky za využití pouze volně dostupných dat z internetu. Systémy po několika měsících vývoje dosáhly výsledků pod 22 % Word Error Rate.	cs
dc.description.abstract	The diseratation thesis deals with creation of automatic speech recognition systems (ASR) and with effective adaptation of already existing system to a new language. Today's ASR systems have modular stucture where individual moduls can be considered as language dependent or independent. The main goal of this thesis is research and development of methods that automate and make the development of language dependent modules effective as much as possible using free available data from the internet, machine learning methods and similarities between langages. It is accompanied by documented application and testing of the methods on the major Slavic languages. The work is associated with research projects dealing with development of broadcast monitoring systems for Slavic languages. In the first part, basic concepts and the state of the art are described with focus on individual moduls and parts of the development of ASR systems. It is followed by description of Slavic languages with respect to ASR. The main part of the work is divided into two parts. The first one deals with lingvistic-lexical aspects of the development and the second one deals with acoustic-phonetic aspects. The lingvistic-lexical part deals with the development of a text corpus, a pronunciation lexicon and a language model. Principles and procedures for effective gathering and processing of text data obtained from the internet are described here. The text data needs to be cleaned from unwanted elements, normalized and langauge filtering should be applied. In case of a language using non-latin alphabet, it is appropriate to make an alphabet conversion. Cyrilic-to-latin alphabet conversion was designed for this purpose. Then, words are chosen from the corpus to create the lexicon and statistical language model is computed. The acoustic-phonetic part deals with the development of a phonetic inventory, creation of pronunciation for words in lexicon and the development of an acoustic model (AM). First, principles of a selection of phonemes for a new language and approaches for the creation of pronunciations are described. Next, approaches for gathering acoustis data from the internet and their processing for creation of an AM are described. Three AM training schemes are described. First supervised approach uses recordings with phonetic anotations from which the AM is trained. Second lightly-supervised approach uses recordings together with some accompanying text which might contain parts of the speech in the recordings. The recordings are transribed by an existing speech recognizer and any match between the output and the accompanying text is being searched. Matching parts are cut and added to the train set. All recordings are iteratively processed and more training data are gathered. In the case when the development of a system for a new language, acoustic data from another language can be used in multilingual system for gathering data for the target langauge. Third unsuprvised approach uses several different ASR systems to create phonetic annotations for recordings without any related text. Recordings are transribed with all systems and if their outputs match the output is used as its phonetic annotation. To test all created systems, standardized test sets were created from real data. Final versions of the systems were tested on the test sets to evaluate their usability in the broadcast monitoring tasks. Most of the systems achieved results below 20% of Word Error Rate. As last, proposed methods where applied to another three europen languages. The development was performed mostly automatically using only free available data from the internet. The systems achieved results below 22% of Word Error Rate after few months of development.	en
dc.description.mark
dc.format	117 (200 000 znaků)
dc.format.extent	Schémata, Tabulky
dc.identifier.signature	D 202100057
dc.identifier.uri	https://dspace.tul.cz/handle/15240/159975
dc.language.iso	cs
dc.relation.isbasedon
dc.rights	Vysokoškolská závěrečná práce je autorské dílo chráněné dle zákona č. 121/2000 Sb., autorský zákon, ve znění pozdějších předpisů. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem https://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou https://knihovna.tul.cz/document/26	cs
dc.rights	A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act. https://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics https://knihovna.tul.cz/document/26	en
dc.rights.uri	https://knihovna.tul.cz/document/26
dc.rights.uri	https://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf
dc.subject	automatické rozpoznávání řeči	cs
dc.subject	jazykové modelování	cs
dc.subject	akustické modelování	cs
dc.subject	strojové učení	cs
dc.subject	multilingvální systémy	cs
dc.subject	GMM	cs
dc.subject	DNN	cs
dc.subject	slovanské jazyky	cs
dc.subject	automatic speech recognition	en
dc.subject	language modeling	en
dc.subject	acoustic modeling	en
dc.subject	machine learning	en
dc.subject	multilingual systems	en
dc.subject	GMM	en
dc.subject	DNN	en
dc.subject	Slavic languages	en
dc.title	Multilingvální systémy rozpoznávání řeči a jejich efektivní učení	cs
dc.type	disertační práce	cs
local.degree.abbreviation	Doktorský
local.degree.discipline	TK4
local.degree.programme	Elektrotechnika a informatika
local.degree.programmeabbreviation	P2612
local.department.abbreviation	NTI
local.faculty	Fakulta mechatroniky, informatiky a mezioborových studií	cs
local.faculty.abbreviation	FM
local.identifier.author	M14000006
local.identifier.stag	41904
local.identifier.verbis
local.identifier.verbis	6b6ea19f-1158-4fda-bbc7-ccb4d217fa45
local.note.administrators	automat
local.note.secrecy	Povoleno ZverejnitPraci Povoleno ZverejnitPosudky
local.poradovecislo	57

Multilingvální systémy rozpoznávání řeči a jejich efektivní učení

Files

Original bundle

Collections