Fakulta mechatroniky, informatiky a mezioborových studií
Permanent URI for this community
Browse
Browsing Fakulta mechatroniky, informatiky a mezioborových studií by Subject "acoustic modeling"
Now showing 1 - 1 of 1
Results Per Page
Sort Options
- ItemMultilingvální systémy rozpoznávání řeči a jejich efektivní učeníŠafařík, Radek; ; Nouza Jan, prof. Ing. CSc. Skolitel : 54737Tato disertační práce se zabývá problematikou tvorby systémů automatického rozpoznávání řeči (ASR), respektive efektivní adaptací již existujícího systému na nový jazyk. Současné ASR systémy mají modulární architekturu a jednotlivé moduly se dají rozdělit na jazykově závislé a nezávislé. Hlavním cílem této práce je výzkum a vývoj metod, které v co největší míře zautomatizují a zefektivní průběh vývoje jazykově závislých modulů systému za využití volně dostupných dat na internetu, metod strojového učení a podobností mezi jazyky. Text je doprovázen dokumentovanou aplikací a testováním těchto metod na všechny hlavní slovanské jazyky. Práce je navázána na výzkumné projekty zabývající se vývojem monitorovacích systémů televizního a rozhlasového vysílání ve slovanských jazycích. V první části práce jsou popsány základní pojmy a současný stav poznání zaměřující se na jednotlivé moduly a části vývoje ASR systémů. Následuje popis zpracovávaných slovanských jazyků s ohledem na problematiku ASR. Hlavní část práce je pak rozdělena na dvě části. První část se zaměřuje na výzkum a vývoj v oblasti lingvisticko-lexikální a druhá v oblasti akusticko-fonetické. Lingvisticko-lexikální část se zabývá vývojem jazykového korpusu, výslovnostního slovníku a jazykového modelu. Jsou zde popsány principy a postupy, jak efektivně získávat a zpracovávat textová data z internetu pro tvorbu těchto modulů. Při zpracování je potřeba texty korpusu vyčistit od nevhodných elementů, normalizovat, aplikovat jazykové filtrování a případně vyřešit převod abeced pro jazyky používající jinou abecedu než latinku, k čemuž byla navržena převodní abeceda pro jazyky píšící v cyrilici. Z korpusu jsou vybrána slova do slovníku a následně vypočítán statistický jazykový model. Akusticko-fonetická část se zabývá definicí fonetického inventáře, tvorbou výslovnosti pro slova ve slovníku a vývojem akustického modelu (AM). Nejprve jsou popsány principy výběru fonémů pro nový jazyk a přístupy k tvorbě výslovností pro slova ve slovníku. Dále jsou podrobně rozebrány postupy získávání akustických dat z internetu a jejich zpracování na trénovací data pro vytvoření AM. Popsány jsou tři přístupy tvorby AM. První, supervizovaný, využívá nahrávky s jejich fonetickou anotací, ze kterých je natrénován AM. Druhý, tzv. lehce supervizovaný, využívá nahrávky spolu s asociovaným textem, který může, a nemusí obsahovat promluvy v nahrávce. Nahrávky jsou rozpoznány existujícím systémem a je hledána shoda mezi výstupem rozpoznávače a přidruženým textem. Shodné části jsou vyříznuty a přidány do trénovací sady. Nahrávky jsou postupně vytěžovány iterativním procesem. V případě, že je započat vývoj systému pro nový jazyk, může zde být využito akustických dat z jiného, již zvládnutého jazyka, kde je pak využito multilingválního sytému pro získávání dat pro cílový jazyk. Třetí, nesupervizovaný, přístup využívá několik různých ASR systémů pro tvorbu dat pouze z nahrávek, které nemají žádný přidružený text. Nahrávky jsou rozpoznány všemi systémy, a pokud se výstupy shodují, výsledný výstup je použit jako fonetická anotace. Pro otestování všech systémů byly vytvořeny standardizované testovací sady z reálného prostředí. Na nich byly otestovány finální verze systémů pro zhodnocení jejich použitelnosti v praxi při monitorování médií. Většina systémů dosáhla výsledků pod 20 % Word Error Rate. Na závěr byly navržené metody otestovány i na třech dalších evropských jazycích. Vývoj probíhal převážně automaticky za využití pouze volně dostupných dat z internetu. Systémy po několika měsících vývoje dosáhly výsledků pod 22 % Word Error Rate.