Data Augmentation Methods for Improving Performance of E2E ASR Systems on Distant Speech

dc.contributor.advisorČerva Petr, doc. Ing. Ph.D. :55712cs
dc.contributor.authorMotejlek, Martincs
dc.contributor.refereeKolorenč Jan, Ing. Ph.D. :66659cs
dc.date.accessioned2025-07-14T17:19:10Z
dc.date.available2025-07-14T17:19:10Z
dc.date.committed9.5.2025cs
dc.date.defense11.6.2025cs
dc.date.issued2025-06-11cs
dc.date.submitted14.10.2024cs
dc.description.abstractTato práce se zabývá augmentací dat pro systémy automatického rozpoznávání řeči (ASR) typu end-to-end (E2E) s cílem zlepšit metriku word error rate (WER) na vzdálené řeči. Experimenty jsou provedeny na angličtině. ASR systém využívá toolkit WeNet s E2E architekturou s enkodérem typu Conformer. Techniky augmentace jsou laděny na 500 hodinách relativně čistých trénovacích dat. Byly navrženy dvě vlastní metody augmentace. Pro řešení přítomnosti více mluvčích v testovacích datech jsou spojovány trénovacích vzorky. Vyřezávání časových úseků ze spektrogramů (SpecCut) je použito jako další metoda regularizace pro čistá data. Dále jsou provedeny experimenty s regularizačními metodami augmentace předimplementovanými v toolkitu WeNet a metodami simulujícími vzdálenou řeč pomocí přednahraných impulsních odezev místnosti a šumů, pro které je navržena integrace s ostatními metodami. Pro 500hodinový trénovací dataset výsledky ukazují, že technika augmentace kombinující poznatky této práce výrazně a konzistentně překonává WER baseline modelu při testování na různorodých datech obsahujících vzdálenou řeč a zhoršení na čisté řeči je přijatelné. To lze využít pro jazyky se středně velkým množstvím dostupných řečových dat. S navrženou technikou augmentace byl pro zajímavost také natrénován model na 10000 hodinách dat, který je porovnán se systémy třetích stran.cs
dc.description.abstractThis thesis deals with data augmentation for end-to-end (E2E) automatic speech recognition (ASR) systems with the goal of improving word error rate (WER) on distant speech. Experiments are conducted on English. The ASR system uses the WeNet toolkit with an E2E architecture featuring a Conformer encoder. The augmentation policies are tuned on 500 hours of relatively clean training data. Two custom augmentation methods are proposed. Sample concatenation is used to address the presence of multiple speakers in the test data. Cutting time segments out of spectrograms (SpecCut) acts as an additional regularization method for clean data. In addition, experiments are conducted with regularizing augmentation methods pre-implemented in WeNet, and methods for simulation of distant speech using pre-recorded room impulse responses and noises, for which techniques for integration with other methods are proposed. The results show that for a 500-hour training dataset, an augmentation policy combining the findings of this work significantly and consistently outperforms baseline model WER when tested on a variety of distant-speech data, with acceptable degradation on clean speech. This is applicable for languages with a medium-sized amount of available speech data. The designed policy was, informatively, also applied to training a 10000-hour model, which is compared with third-party systems.en
dc.format75 s.cs
dc.identifier.urihttps://dspace.tul.cz/handle/15240/177331
dc.language.isoANcs
dc.subjectautomatické rozpoznávání řečics
dc.subjectaugmentace datcs
dc.subjectrozpoznávání vzdálené řečics
dc.subjectend-to-end rozpoznávání řečics
dc.subjectWeNetcs
dc.titleData Augmentation Methods for Improving Performance of E2E ASR Systems on Distant Speechcs
dc.titleData Augmentation Methods for Improving Performance of E2E ASR Systems on Distant Speechen
dc.typediplomová prácecs
local.degree.abbreviationNavazujícícs
local.identifier.authorM23000123cs
local.identifier.stag47823cs
Files
Original bundle
Now showing 1 - 4 of 4
Loading...
Thumbnail Image
Name:
MOTEJLEK_DP_FINAL_2.pdf
Size:
2.28 MB
Format:
Adobe Portable Document Format
Description:
VŠKP ( 7.5.2025 12:07 )
Loading...
Thumbnail Image
Name:
DP_Martin Motejlek_vedoucí.pdf
Size:
306.34 KB
Format:
Adobe Portable Document Format
Description:
Posudek vedoucího VŠKP ( 29.5.2025 15:27 )
Loading...
Thumbnail Image
Name:
DP_Martin Motejlek_oponent.pdf
Size:
642.21 KB
Format:
Adobe Portable Document Format
Description:
Posudek oponenta VŠKP ( 2.6.2025 13:07 )
Loading...
Thumbnail Image
Name:
ProtokolSPrubehemObhajobySTAG.pdf
Size:
39.07 KB
Format:
Adobe Portable Document Format
Description:
Průběh obhajoby VŠKP ( 11.6.2025 12:14 )