Browsing by Author "Šafařík, Radek"
Now showing 1 - 3 of 3
Results Per Page
Sort Options
- ItemMetody měření podobnosti jazyků(Technická Univerzita v Liberci, 2014-01-01) Šafařík, Radek; Nouza, JanTato diplomová práce je zaměřena na měření podobnosti evropských jazyků v jejich psané a mluvené formě. Pro měření podobnosti v mluvené formě se práce zaměřuje pouze na slovanské jazyky. Práce začíná teoretickým úvodem do komparativní lingvistiky a popisuje základní pojmy a principy hledání podobnosti jazyků. Jako zdroj dat pro měření podobnosti jsou použity různé textové korpusy a slovníky, které jsou dále podrobně popsány. Dále práce popisuje postupy pro předzpracování textů, vytvořený systém pro fonetickou transkripci textů do mezinárodní fonetické abecedy, metody použité pro měření podobnosti a výsledné vyhodnocení naměřených dat. Pro měření podobnosti jsou použity metody pracující s textovými řetězci a množinami znaků.
- ItemMultilingvální systémy rozpoznávání řeči a jejich efektivní učení(2014-8-1) Šafařík, Radek; ; Nouza Jan, prof. Ing. CSc. Skolitel : 54737Tato disertační práce se zabývá problematikou tvorby systémů automatického rozpoznávání řeči (ASR), respektive efektivní adaptací již existujícího systému na nový jazyk. Současné ASR systémy mají modulární architekturu a jednotlivé moduly se dají rozdělit na jazykově závislé a nezávislé. Hlavním cílem této práce je výzkum a vývoj metod, které v co největší míře zautomatizují a zefektivní průběh vývoje jazykově závislých modulů systému za využití volně dostupných dat na internetu, metod strojového učení a podobností mezi jazyky. Text je doprovázen dokumentovanou aplikací a testováním těchto metod na všechny hlavní slovanské jazyky. Práce je navázána na výzkumné projekty zabývající se vývojem monitorovacích systémů televizního a rozhlasového vysílání ve slovanských jazycích. V první části práce jsou popsány základní pojmy a současný stav poznání zaměřující se na jednotlivé moduly a části vývoje ASR systémů. Následuje popis zpracovávaných slovanských jazyků s ohledem na problematiku ASR. Hlavní část práce je pak rozdělena na dvě části. První část se zaměřuje na výzkum a vývoj v oblasti lingvisticko-lexikální a druhá v oblasti akusticko-fonetické. Lingvisticko-lexikální část se zabývá vývojem jazykového korpusu, výslovnostního slovníku a jazykového modelu. Jsou zde popsány principy a postupy, jak efektivně získávat a zpracovávat textová data z internetu pro tvorbu těchto modulů. Při zpracování je potřeba texty korpusu vyčistit od nevhodných elementů, normalizovat, aplikovat jazykové filtrování a případně vyřešit převod abeced pro jazyky používající jinou abecedu než latinku, k čemuž byla navržena převodní abeceda pro jazyky píšící v cyrilici. Z korpusu jsou vybrána slova do slovníku a následně vypočítán statistický jazykový model. Akusticko-fonetická část se zabývá definicí fonetického inventáře, tvorbou výslovnosti pro slova ve slovníku a vývojem akustického modelu (AM). Nejprve jsou popsány principy výběru fonémů pro nový jazyk a přístupy k tvorbě výslovností pro slova ve slovníku. Dále jsou podrobně rozebrány postupy získávání akustických dat z internetu a jejich zpracování na trénovací data pro vytvoření AM. Popsány jsou tři přístupy tvorby AM. První, supervizovaný, využívá nahrávky s jejich fonetickou anotací, ze kterých je natrénován AM. Druhý, tzv. lehce supervizovaný, využívá nahrávky spolu s asociovaným textem, který může, a nemusí obsahovat promluvy v nahrávce. Nahrávky jsou rozpoznány existujícím systémem a je hledána shoda mezi výstupem rozpoznávače a přidruženým textem. Shodné části jsou vyříznuty a přidány do trénovací sady. Nahrávky jsou postupně vytěžovány iterativním procesem. V případě, že je započat vývoj systému pro nový jazyk, může zde být využito akustických dat z jiného, již zvládnutého jazyka, kde je pak využito multilingválního sytému pro získávání dat pro cílový jazyk. Třetí, nesupervizovaný, přístup využívá několik různých ASR systémů pro tvorbu dat pouze z nahrávek, které nemají žádný přidružený text. Nahrávky jsou rozpoznány všemi systémy, a pokud se výstupy shodují, výsledný výstup je použit jako fonetická anotace. Pro otestování všech systémů byly vytvořeny standardizované testovací sady z reálného prostředí. Na nich byly otestovány finální verze systémů pro zhodnocení jejich použitelnosti v praxi při monitorování médií. Většina systémů dosáhla výsledků pod 20 % Word Error Rate. Na závěr byly navržené metody otestovány i na třech dalších evropských jazycích. Vývoj probíhal převážně automaticky za využití pouze volně dostupných dat z internetu. Systémy po několika měsících vývoje dosáhly výsledků pod 22 % Word Error Rate.
- ItemUsing Deep Neural Networks for Identification of Slavic Languages from Acoustic Signal(2018-01-01) Matějů, Lukáš; Červa, Petr; Žďánský, Jindřich; Šafařík, RadekThis paper investigates the use of deep neural networks (DNNs) for the task of spoken language identification. Various feed-forward fully connected, convolutional and recurrent DNN architectures are adopted and compared against a baseline i-vector based system. Moreover, DNNs are also utilized for extraction of bottleneck features from the input signal. The dataset used for experimental evaluation contains utterances belonging to languages that are all related to each other and sometimes hard to distinguish even for human listeners: it is compiled from recordings of the 11 most widespread Slavic languages. We also released this Slavic dataset to the general public, because a similar collection is not publicly available through any other source. The best results were yielded by a bidirectional recurrent DNN with gated recurrent units that was fed by bottleneck features. In this case, the baseline ER was reduced from 4.2% to 1.2% and C-avg from 2.3% to 0.6%.