Multilingvální systémy rozpoznávání řeči a jejich efektivní učení

dc.contributor
dc.contributor.advisor
dc.contributor.authorŠafařík, Radek
dc.contributor.otherNouza Jan, prof. Ing. CSc. Skolitel : 54737
dc.date.accessioned2021-04-26T17:46:54Z
dc.date.available2021-04-26T17:46:54Z
dc.date.committed2018-7-31
dc.date.defense2021-03-18
dc.date.submitted2014-8-1
dc.date.updated2021-4-22
dc.degree.levelPh.D.
dc.description.abstractTato disertační práce se zabývá problematikou tvorby systémů automatického rozpoznávání řeči (ASR), respektive efektivní adaptací již existujícího systému na nový jazyk. Současné ASR systémy mají modulární architekturu a jednotlivé moduly se dají rozdělit na jazykově závislé a nezávislé. Hlavním cílem této práce je výzkum a vývoj metod, které v co největší míře zautomatizují a zefektivní průběh vývoje jazykově závislých modulů systému za využití volně dostupných dat na internetu, metod strojového učení a podobností mezi jazyky. Text je doprovázen dokumentovanou aplikací a testováním těchto metod na všechny hlavní slovanské jazyky. Práce je navázána na výzkumné projekty zabývající se vývojem monitorovacích systémů televizního a rozhlasového vysílání ve slovanských jazycích. V první části práce jsou popsány základní pojmy a současný stav poznání zaměřující se na jednotlivé moduly a části vývoje ASR systémů. Následuje popis zpracovávaných slovanských jazyků s ohledem na problematiku ASR. Hlavní část práce je pak rozdělena na dvě části. První část se zaměřuje na výzkum a vývoj v oblasti lingvisticko-lexikální a druhá v oblasti akusticko-fonetické. Lingvisticko-lexikální část se zabývá vývojem jazykového korpusu, výslovnostního slovníku a jazykového modelu. Jsou zde popsány principy a postupy, jak efektivně získávat a zpracovávat textová data z internetu pro tvorbu těchto modulů. Při zpracování je potřeba texty korpusu vyčistit od nevhodných elementů, normalizovat, aplikovat jazykové filtrování a případně vyřešit převod abeced pro jazyky používající jinou abecedu než latinku, k čemuž byla navržena převodní abeceda pro jazyky píšící v cyrilici. Z korpusu jsou vybrána slova do slovníku a následně vypočítán statistický jazykový model. Akusticko-fonetická část se zabývá definicí fonetického inventáře, tvorbou výslovnosti pro slova ve slovníku a vývojem akustického modelu (AM). Nejprve jsou popsány principy výběru fonémů pro nový jazyk a přístupy k tvorbě výslovností pro slova ve slovníku. Dále jsou podrobně rozebrány postupy získávání akustických dat z internetu a jejich zpracování na trénovací data pro vytvoření AM. Popsány jsou tři přístupy tvorby AM. První, supervizovaný, využívá nahrávky s jejich fonetickou anotací, ze kterých je natrénován AM. Druhý, tzv. lehce supervizovaný, využívá nahrávky spolu s asociovaným textem, který může, a nemusí obsahovat promluvy v nahrávce. Nahrávky jsou rozpoznány existujícím systémem a je hledána shoda mezi výstupem rozpoznávače a přidruženým textem. Shodné části jsou vyříznuty a přidány do trénovací sady. Nahrávky jsou postupně vytěžovány iterativním procesem. V případě, že je započat vývoj systému pro nový jazyk, může zde být využito akustických dat z jiného, již zvládnutého jazyka, kde je pak využito multilingválního sytému pro získávání dat pro cílový jazyk. Třetí, nesupervizovaný, přístup využívá několik různých ASR systémů pro tvorbu dat pouze z nahrávek, které nemají žádný přidružený text. Nahrávky jsou rozpoznány všemi systémy, a pokud se výstupy shodují, výsledný výstup je použit jako fonetická anotace. Pro otestování všech systémů byly vytvořeny standardizované testovací sady z reálného prostředí. Na nich byly otestovány finální verze systémů pro zhodnocení jejich použitelnosti v praxi při monitorování médií. Většina systémů dosáhla výsledků pod 20 % Word Error Rate. Na závěr byly navržené metody otestovány i na třech dalších evropských jazycích. Vývoj probíhal převážně automaticky za využití pouze volně dostupných dat z internetu. Systémy po několika měsících vývoje dosáhly výsledků pod 22 % Word Error Rate.cs
dc.description.abstractThe diseratation thesis deals with creation of automatic speech recognition systems (ASR) and with effective adaptation of already existing system to a new language. Today's ASR systems have modular stucture where individual moduls can be considered as language dependent or independent. The main goal of this thesis is research and development of methods that automate and make the development of language dependent modules effective as much as possible using free available data from the internet, machine learning methods and similarities between langages. It is accompanied by documented application and testing of the methods on the major Slavic languages. The work is associated with research projects dealing with development of broadcast monitoring systems for Slavic languages. In the first part, basic concepts and the state of the art are described with focus on individual moduls and parts of the development of ASR systems. It is followed by description of Slavic languages with respect to ASR. The main part of the work is divided into two parts. The first one deals with lingvistic-lexical aspects of the development and the second one deals with acoustic-phonetic aspects. The lingvistic-lexical part deals with the development of a text corpus, a pronunciation lexicon and a language model. Principles and procedures for effective gathering and processing of text data obtained from the internet are described here. The text data needs to be cleaned from unwanted elements, normalized and langauge filtering should be applied. In case of a language using non-latin alphabet, it is appropriate to make an alphabet conversion. Cyrilic-to-latin alphabet conversion was designed for this purpose. Then, words are chosen from the corpus to create the lexicon and statistical language model is computed. The acoustic-phonetic part deals with the development of a phonetic inventory, creation of pronunciation for words in lexicon and the development of an acoustic model (AM). First, principles of a selection of phonemes for a new language and approaches for the creation of pronunciations are described. Next, approaches for gathering acoustis data from the internet and their processing for creation of an AM are described. Three AM training schemes are described. First supervised approach uses recordings with phonetic anotations from which the AM is trained. Second lightly-supervised approach uses recordings together with some accompanying text which might contain parts of the speech in the recordings. The recordings are transribed by an existing speech recognizer and any match between the output and the accompanying text is being searched. Matching parts are cut and added to the train set. All recordings are iteratively processed and more training data are gathered. In the case when the development of a system for a new language, acoustic data from another language can be used in multilingual system for gathering data for the target langauge. Third unsuprvised approach uses several different ASR systems to create phonetic annotations for recordings without any related text. Recordings are transribed with all systems and if their outputs match the output is used as its phonetic annotation. To test all created systems, standardized test sets were created from real data. Final versions of the systems were tested on the test sets to evaluate their usability in the broadcast monitoring tasks. Most of the systems achieved results below 20% of Word Error Rate. As last, proposed methods where applied to another three europen languages. The development was performed mostly automatically using only free available data from the internet. The systems achieved results below 22% of Word Error Rate after few months of development.en
dc.description.mark
dc.format117 (200 000 znaků)
dc.format.extentSchémata, Tabulky
dc.identifier.signatureD 202100057
dc.identifier.urihttps://dspace.tul.cz/handle/15240/159975
dc.language.isocs
dc.relation.isbasedon
dc.rightsVysokoškolská závěrečná práce je autorské dílo chráněné dle zákona č. 121/2000 Sb., autorský zákon, ve znění pozdějších předpisů. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem https://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou https://knihovna.tul.cz/document/26cs
dc.rightsA university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act. https://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics https://knihovna.tul.cz/document/26en
dc.rights.urihttps://knihovna.tul.cz/document/26
dc.rights.urihttps://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf
dc.subjectautomatické rozpoznávání řečics
dc.subjectjazykové modelovánícs
dc.subjectakustické modelovánícs
dc.subjectstrojové učenícs
dc.subjectmultilingvální systémycs
dc.subjectGMMcs
dc.subjectDNNcs
dc.subjectslovanské jazykycs
dc.subjectautomatic speech recognitionen
dc.subjectlanguage modelingen
dc.subjectacoustic modelingen
dc.subjectmachine learningen
dc.subjectmultilingual systemsen
dc.subjectGMMen
dc.subjectDNNen
dc.subjectSlavic languagesen
dc.titleMultilingvální systémy rozpoznávání řeči a jejich efektivní učenícs
dc.typedisertační prácecs
local.degree.abbreviationDoktorský
local.degree.disciplineTK4
local.degree.programmeElektrotechnika a informatika
local.degree.programmeabbreviationP2612
local.department.abbreviationNTI
local.facultyFakulta mechatroniky, informatiky a mezioborových studiícs
local.faculty.abbreviationFM
local.identifier.authorM14000006
local.identifier.stag41904
local.identifier.verbis
local.identifier.verbis6b6ea19f-1158-4fda-bbc7-ccb4d217fa45
local.note.administratorsautomat
local.note.secrecyPovoleno ZverejnitPraci Povoleno ZverejnitPosudky
local.poradovecislo57
Files
Original bundle
Now showing 1 - 4 of 4
Loading...
Thumbnail Image
Name:
Dizertace_Safarik.pdf
Size:
1.63 MB
Format:
Adobe Portable Document Format
Description:
VSKP
Loading...
Thumbnail Image
Name:
Posudky_final.pdf
Size:
1.87 MB
Format:
Adobe Portable Document Format
Description:
Posudek_oponenta_VSKP
Loading...
Thumbnail Image
Name:
Hodnoceni_skolitele.docx
Size:
12.91 KB
Format:
Unknown data format
Description:
Posudek_vedouciho_VSKP
Loading...
Thumbnail Image
Name:
Zapis_final.pdf
Size:
608.47 KB
Format:
Adobe Portable Document Format
Description:
Prubeh_obhajoby_VSKP
Collections