Systém rozpoznávání řeči typu E2E

dc.contributor.advisorNouza Jan, prof. Ing. CSc. :54737cs
dc.contributor.authorHalada, Martincs
dc.contributor.refereeBoháč Marek, Ing. Ph.D. :68488cs
dc.date.accessioned2023-12-09T05:04:53Z
dc.date.available2023-12-09T05:04:53Z
dc.date.committed22.5.2023cs
dc.date.defense20.6.2023cs
dc.date.issued2023-06-20
dc.date.submitted24.10.2022cs
dc.description.abstractDiplomová práce se zabývá způsobem rozpoznávání řeči založeném na principu end-to-end. V první kapitole práce představuje problematiku rozpoznávání řeči, srovnává tradiční i aktuální přístupy a zmiňuje základní kategorie systémů typu end-to-end. Druhá kapitola uvádí postup přípravy dat, stažení zvukových záznamů s odpovídajícími přepisy, jejich správné přiřazení a nakonec zvýšení výtěžnosti dat. Třetí kapitola se věnuje vlastnímu návrhu a implementaci systému typu end-to-end. Zmiňuje dostupné frameworky pro trénování i testování. Dále se kapitola zabývá postupem natrénování modelů včetně implementace vrstev neuronové sítě. Jeden model využívá seznam znaků a tři modely seznam slovních podřetězců. Nakonec se kapitola zabývá procesem testování včetně implementace dekódovacích algoritmů Beam a Greedy search. Poslední kapitola popisuje experimenty na nezávislých testovacích datech a dokumentuje výsledky rozpoznávání při různých parametrech. Lepší rozpoznávací skóre poskytuje dekodér Beam search, ale rozdíl není příliš výrazný.cs
dc.description.abstractThis thesis deals with an end-to-end speech recognition system. The first chapter of the thesis introduces the problem of speech recognition, compares traditional and current approaches and mentions the basic categories of end-to-end systems. The second chapter presents the procedure of data preparation, downloading audio recordings with their transcripts, matching them correctly and finally obtaining as much usable data as possible. The third chapter discusses the actual design and implementation of the end-to-end system. Mentions the available frameworks for training and testing. Next, the chapter discusses the process of training the models including the implementation of the neural network layers. One model uses a list of alphabet characters and three models use a list of word substrings. Finally, the chapter discusses the testing process including the implementation of decoding algorithms (Beam and Greedy decoder). The last chapter describes the experiments on independent test data and provides the recognition results for different parameters. The Beam search decoder provides better recognition scores, but the difference is not very significant.en
dc.format64 s.cs
dc.identifier.urihttps://dspace.tul.cz/handle/15240/174453
dc.language.isoCScs
dc.subjectrozpoznávání řečics
dc.subjectend-to-endcs
dc.subjectCTCcs
dc.subjectdekodér Greedy searchcs
dc.subjectdekodér Beam searchcs
dc.titleSystém rozpoznávání řeči typu E2Ecs
dc.titleE2E speech recognition systemen
dc.typediplomová prácecs
local.degree.abbreviationNavazujícícs
local.identifier.authorM21000166cs
local.identifier.stag44623cs
Files
Original bundle
Now showing 1 - 4 of 4
Loading...
Thumbnail Image
Name:
dp_Halada.pdf
Size:
1.25 MB
Format:
Adobe Portable Document Format
Description:
VŠKP ( 20.5.2023 22:00 )
Loading...
Thumbnail Image
Name:
DP_Martin Halada_oponent.pdf
Size:
724.93 KB
Format:
Adobe Portable Document Format
Description:
Posudek oponenta VŠKP ( 12.6.2023 10:54 )
Loading...
Thumbnail Image
Name:
DP_Martin Halada_vedoucí.pdf
Size:
749.01 KB
Format:
Adobe Portable Document Format
Description:
Posudek vedoucího VŠKP ( 15.6.2023 9:09 )
Loading...
Thumbnail Image
Name:
ProtokolSPrubehemObhajobySTAG.pdf
Size:
39.38 KB
Format:
Adobe Portable Document Format
Description:
Průběh obhajoby VŠKP ( 20.6.2023 12:43 )