Multilingvální systémy rozpoznávání řeči a jejich efektivní učení

Abstract
Tato disertační práce se zabývá problematikou tvorby systémů automatického rozpoznávání řeči (ASR), respektive efektivní adaptací již existujícího systému na nový jazyk. Současné ASR systémy mají modulární architekturu a jednotlivé moduly se dají rozdělit na jazykově závislé a nezávislé. Hlavním cílem této práce je výzkum a vývoj metod, které v co největší míře zautomatizují a zefektivní průběh vývoje jazykově závislých modulů systému za využití volně dostupných dat na internetu, metod strojového učení a podobností mezi jazyky. Text je doprovázen dokumentovanou aplikací a testováním těchto metod na všechny hlavní slovanské jazyky. Práce je navázána na výzkumné projekty zabývající se vývojem monitorovacích systémů televizního a rozhlasového vysílání ve slovanských jazycích. V první části práce jsou popsány základní pojmy a současný stav poznání zaměřující se na jednotlivé moduly a části vývoje ASR systémů. Následuje popis zpracovávaných slovanských jazyků s ohledem na problematiku ASR. Hlavní část práce je pak rozdělena na dvě části. První část se zaměřuje na výzkum a vývoj v oblasti lingvisticko-lexikální a druhá v oblasti akusticko-fonetické. Lingvisticko-lexikální část se zabývá vývojem jazykového korpusu, výslovnostního slovníku a jazykového modelu. Jsou zde popsány principy a postupy, jak efektivně získávat a zpracovávat textová data z internetu pro tvorbu těchto modulů. Při zpracování je potřeba texty korpusu vyčistit od nevhodných elementů, normalizovat, aplikovat jazykové filtrování a případně vyřešit převod abeced pro jazyky používající jinou abecedu než latinku, k čemuž byla navržena převodní abeceda pro jazyky píšící v cyrilici. Z korpusu jsou vybrána slova do slovníku a následně vypočítán statistický jazykový model. Akusticko-fonetická část se zabývá definicí fonetického inventáře, tvorbou výslovnosti pro slova ve slovníku a vývojem akustického modelu (AM). Nejprve jsou popsány principy výběru fonémů pro nový jazyk a přístupy k tvorbě výslovností pro slova ve slovníku. Dále jsou podrobně rozebrány postupy získávání akustických dat z internetu a jejich zpracování na trénovací data pro vytvoření AM. Popsány jsou tři přístupy tvorby AM. První, supervizovaný, využívá nahrávky s jejich fonetickou anotací, ze kterých je natrénován AM. Druhý, tzv. lehce supervizovaný, využívá nahrávky spolu s asociovaným textem, který může, a nemusí obsahovat promluvy v nahrávce. Nahrávky jsou rozpoznány existujícím systémem a je hledána shoda mezi výstupem rozpoznávače a přidruženým textem. Shodné části jsou vyříznuty a přidány do trénovací sady. Nahrávky jsou postupně vytěžovány iterativním procesem. V případě, že je započat vývoj systému pro nový jazyk, může zde být využito akustických dat z jiného, již zvládnutého jazyka, kde je pak využito multilingválního sytému pro získávání dat pro cílový jazyk. Třetí, nesupervizovaný, přístup využívá několik různých ASR systémů pro tvorbu dat pouze z nahrávek, které nemají žádný přidružený text. Nahrávky jsou rozpoznány všemi systémy, a pokud se výstupy shodují, výsledný výstup je použit jako fonetická anotace. Pro otestování všech systémů byly vytvořeny standardizované testovací sady z reálného prostředí. Na nich byly otestovány finální verze systémů pro zhodnocení jejich použitelnosti v praxi při monitorování médií. Většina systémů dosáhla výsledků pod 20 % Word Error Rate. Na závěr byly navržené metody otestovány i na třech dalších evropských jazycích. Vývoj probíhal převážně automaticky za využití pouze volně dostupných dat z internetu. Systémy po několika měsících vývoje dosáhly výsledků pod 22 % Word Error Rate.
The diseratation thesis deals with creation of automatic speech recognition systems (ASR) and with effective adaptation of already existing system to a new language. Today's ASR systems have modular stucture where individual moduls can be considered as language dependent or independent. The main goal of this thesis is research and development of methods that automate and make the development of language dependent modules effective as much as possible using free available data from the internet, machine learning methods and similarities between langages. It is accompanied by documented application and testing of the methods on the major Slavic languages. The work is associated with research projects dealing with development of broadcast monitoring systems for Slavic languages. In the first part, basic concepts and the state of the art are described with focus on individual moduls and parts of the development of ASR systems. It is followed by description of Slavic languages with respect to ASR. The main part of the work is divided into two parts. The first one deals with lingvistic-lexical aspects of the development and the second one deals with acoustic-phonetic aspects. The lingvistic-lexical part deals with the development of a text corpus, a pronunciation lexicon and a language model. Principles and procedures for effective gathering and processing of text data obtained from the internet are described here. The text data needs to be cleaned from unwanted elements, normalized and langauge filtering should be applied. In case of a language using non-latin alphabet, it is appropriate to make an alphabet conversion. Cyrilic-to-latin alphabet conversion was designed for this purpose. Then, words are chosen from the corpus to create the lexicon and statistical language model is computed. The acoustic-phonetic part deals with the development of a phonetic inventory, creation of pronunciation for words in lexicon and the development of an acoustic model (AM). First, principles of a selection of phonemes for a new language and approaches for the creation of pronunciations are described. Next, approaches for gathering acoustis data from the internet and their processing for creation of an AM are described. Three AM training schemes are described. First supervised approach uses recordings with phonetic anotations from which the AM is trained. Second lightly-supervised approach uses recordings together with some accompanying text which might contain parts of the speech in the recordings. The recordings are transribed by an existing speech recognizer and any match between the output and the accompanying text is being searched. Matching parts are cut and added to the train set. All recordings are iteratively processed and more training data are gathered. In the case when the development of a system for a new language, acoustic data from another language can be used in multilingual system for gathering data for the target langauge. Third unsuprvised approach uses several different ASR systems to create phonetic annotations for recordings without any related text. Recordings are transribed with all systems and if their outputs match the output is used as its phonetic annotation. To test all created systems, standardized test sets were created from real data. Final versions of the systems were tested on the test sets to evaluate their usability in the broadcast monitoring tasks. Most of the systems achieved results below 20% of Word Error Rate. As last, proposed methods where applied to another three europen languages. The development was performed mostly automatically using only free available data from the internet. The systems achieved results below 22% of Word Error Rate after few months of development.
Description
Subject(s)
automatické rozpoznávání řeči, jazykové modelování, akustické modelování, strojové učení, multilingvální systémy, GMM, DNN, slovanské jazyky, automatic speech recognition, language modeling, acoustic modeling, machine learning, multilingual systems, GMM, DNN, Slavic languages
Citation
ISSN
ISBN
Collections