Systém rozpoznávání řeči typu E2E

Diplomová práce se zabývá způsobem rozpoznávání řeči založeném na principu end-to-end. V první kapitole práce představuje problematiku rozpoznávání řeči, srovnává tradiční i aktuální přístupy a zmiňuje základní kategorie systémů typu end-to-end. Druhá kapitola uvádí postup přípravy dat, stažení zvukových záznamů s odpovídajícími přepisy, jejich správné přiřazení a nakonec zvýšení výtěžnosti dat. Třetí kapitola se věnuje vlastnímu návrhu a implementaci systému typu end-to-end. Zmiňuje dostupné frameworky pro trénování i testování. Dále se kapitola zabývá postupem natrénování modelů včetně implementace vrstev neuronové sítě. Jeden model využívá seznam znaků a tři modely seznam slovních podřetězců. Nakonec se kapitola zabývá procesem testování včetně implementace dekódovacích algoritmů Beam a Greedy search. Poslední kapitola popisuje experimenty na nezávislých testovacích datech a dokumentuje výsledky rozpoznávání při různých parametrech. Lepší rozpoznávací skóre poskytuje dekodér Beam search, ale rozdíl není příliš výrazný.
This thesis deals with an end-to-end speech recognition system. The first chapter of the thesis introduces the problem of speech recognition, compares traditional and current approaches and mentions the basic categories of end-to-end systems. The second chapter presents the procedure of data preparation, downloading audio recordings with their transcripts, matching them correctly and finally obtaining as much usable data as possible. The third chapter discusses the actual design and implementation of the end-to-end system. Mentions the available frameworks for training and testing. Next, the chapter discusses the process of training the models including the implementation of the neural network layers. One model uses a list of alphabet characters and three models use a list of word substrings. Finally, the chapter discusses the testing process including the implementation of decoding algorithms (Beam and Greedy decoder). The last chapter describes the experiments on independent test data and provides the recognition results for different parameters. The Beam search decoder provides better recognition scores, but the difference is not very significant.
rozpoznávání řeči, end-to-end, CTC, dekodér Greedy search, dekodér Beam search