Segmentace řečových trénovacích dat pro učení systémů ASR

dc.contributor.advisorNouza Jan, prof. Ing. CSc. :54737cs
dc.contributor.authorVacek, Ondřejcs
dc.contributor.refereeKolorenč Jan, Ing. Ph.D. :66659cs
dc.date.accessioned2023-12-09T05:04:39Z
dc.date.available2023-12-09T05:04:39Z
dc.date.committed22.5.2023cs
dc.date.defense20.6.2023cs
dc.date.submitted24.10.2022cs
dc.description.abstractTato diplomová práce se zabývá vývojem poměrně rozsáhlého systému pro vytěžování a přípravu trénovacích dat pro účely trénování systémů rozpoznávání řeči. Začíná přehledem historického vývoje automatických systémů rozpoznávání řeči od tradičních po E2E systémy, přičemž zdůrazňuje klíčovou roli dat v jejich tvorbě. Na základě potřeby velkého množství dat je navržen systém pro jejich automatickou těžbu, který se skládá ze tří částí: zpracování audia, zpracování textu a přiřazení textů k audio segmentům. Zpracování audia zahrnuje předzpracování, detekci řečové aktivity a následné rozdělení audia na segmenty obsahující řeč. Zpracování textu se věnuje úpravě textů podle požadavků uživatele a poskytuje k tomu potřebné nástroje. Přiřazení textu k audio segmentům zahrnuje rozpoznávání audio segmentů a přiřazení vhodných textů na základě jejich podobnosti. Navržený systém je experimentálně ověřen na jednoduchých českých a komplexních dánských datech, přičemž se podařilo vytěžit téměř 90 % jednoduchých českých dat a téměř 48 % komplexních dánských dat. Data vytěžená v rámci dánského experimentu byla následně použita při trénování nového modelu. Nakonec se tento nový model použil pro opětovné vytěžení dat, kde se ukázalo, že byl schopen vytěžit téměř o 6 % více dat než jeho předchůdce, a tudíž vytěžená data napomohla ke zlepšení modelu.cs
dc.description.abstractThis thesis deals with the development of a rather large-scale system for mining and preparing training data for the purpose of training speech recognition systems. It starts with an overview of the historical development of automatic speech recognition systems, from traditional to E2E systems, highlighting the key role of data in their design. Based on the need for large amounts of data, a system for automatic data mining is proposed, which consists of three parts: audio processing, text processing, and text matching to audio segments. Audio processing involves pre-processing, speech activity detection and subsequent segmentation of audio into segments containing speech. Text processing deals with the editing of texts according to the user's requirements and provides the necessary tools to do so. Text to audio segment matching involves recognizing audio segments and matching appropriate texts based on their similarity. The proposed system is experimentally validated on simple Czech and complex Danish data, and it has been able to extract almost 90 % of the simple Czech data and almost 48 % of the complex Danish data. The data extracted in the Danish experiment were subsequently used to train the new model. Finally, this new model was used to re-extract the data, where it was shown to be able to extract almost 6 % more data than its predecessor and thus the extracted data helped to improve the model.en
dc.format69 s.cs
dc.identifier.urihttps://dspace.tul.cz/handle/15240/174452
dc.language.isoCScs
dc.subjectrozpoznávání řečics
dc.subjecttěžba datcs
dc.subjectzpracování audiacs
dc.subjectzpracování textucs
dc.subjecttrénovací datacs
dc.titleSegmentace řečových trénovacích dat pro učení systémů ASRcs
dc.titleSegmentation of speech training data for ASR systemen
dc.typediplomová prácecs
local.degree.abbreviationNavazujícícs
local.identifier.authorM21000164cs
local.identifier.stag44621cs
Files
Original bundle
Now showing 1 - 4 of 4
Loading...
Thumbnail Image
Name:
Diplomová_práce___Audio_Segmentace_final.pdf
Size:
473.43 KB
Format:
Adobe Portable Document Format
Description:
VŠKP ( 22.5.2023 0:08 )
Loading...
Thumbnail Image
Name:
DP_Ondřej Vacek_oponent.pdf
Size:
813.68 KB
Format:
Adobe Portable Document Format
Description:
Posudek oponenta VŠKP ( 14.6.2023 9:39 )
Loading...
Thumbnail Image
Name:
DP_Ondřej Vacek_vedoucí.pdf
Size:
835.36 KB
Format:
Adobe Portable Document Format
Description:
Posudek vedoucího VŠKP ( 15.6.2023 9:32 )
Loading...
Thumbnail Image
Name:
ProtokolSPrubehemObhajobySTAG.pdf
Size:
39.42 KB
Format:
Adobe Portable Document Format
Description:
Průběh obhajoby VŠKP ( 20.6.2023 10:59 )