Data Augmentation Methods for Improving Performance of E2E ASR Systems on Distant Speech
| dc.contributor.advisor | Červa Petr, doc. Ing. Ph.D. :55712 | cs |
| dc.contributor.author | Motejlek, Martin | cs |
| dc.contributor.referee | Kolorenč Jan, Ing. Ph.D. :66659 | cs |
| dc.date.accessioned | 2025-07-14T17:19:10Z | |
| dc.date.available | 2025-07-14T17:19:10Z | |
| dc.date.committed | 9.5.2025 | cs |
| dc.date.defense | 11.6.2025 | cs |
| dc.date.issued | 2025-06-11 | cs |
| dc.date.submitted | 14.10.2024 | cs |
| dc.description.abstract | Tato práce se zabývá augmentací dat pro systémy automatického rozpoznávání řeči (ASR) typu end-to-end (E2E) s cílem zlepšit metriku word error rate (WER) na vzdálené řeči. Experimenty jsou provedeny na angličtině. ASR systém využívá toolkit WeNet s E2E architekturou s enkodérem typu Conformer. Techniky augmentace jsou laděny na 500 hodinách relativně čistých trénovacích dat. Byly navrženy dvě vlastní metody augmentace. Pro řešení přítomnosti více mluvčích v testovacích datech jsou spojovány trénovacích vzorky. Vyřezávání časových úseků ze spektrogramů (SpecCut) je použito jako další metoda regularizace pro čistá data. Dále jsou provedeny experimenty s regularizačními metodami augmentace předimplementovanými v toolkitu WeNet a metodami simulujícími vzdálenou řeč pomocí přednahraných impulsních odezev místnosti a šumů, pro které je navržena integrace s ostatními metodami. Pro 500hodinový trénovací dataset výsledky ukazují, že technika augmentace kombinující poznatky této práce výrazně a konzistentně překonává WER baseline modelu při testování na různorodých datech obsahujících vzdálenou řeč a zhoršení na čisté řeči je přijatelné. To lze využít pro jazyky se středně velkým množstvím dostupných řečových dat. S navrženou technikou augmentace byl pro zajímavost také natrénován model na 10000 hodinách dat, který je porovnán se systémy třetích stran. | cs |
| dc.description.abstract | This thesis deals with data augmentation for end-to-end (E2E) automatic speech recognition (ASR) systems with the goal of improving word error rate (WER) on distant speech. Experiments are conducted on English. The ASR system uses the WeNet toolkit with an E2E architecture featuring a Conformer encoder. The augmentation policies are tuned on 500 hours of relatively clean training data. Two custom augmentation methods are proposed. Sample concatenation is used to address the presence of multiple speakers in the test data. Cutting time segments out of spectrograms (SpecCut) acts as an additional regularization method for clean data. In addition, experiments are conducted with regularizing augmentation methods pre-implemented in WeNet, and methods for simulation of distant speech using pre-recorded room impulse responses and noises, for which techniques for integration with other methods are proposed. The results show that for a 500-hour training dataset, an augmentation policy combining the findings of this work significantly and consistently outperforms baseline model WER when tested on a variety of distant-speech data, with acceptable degradation on clean speech. This is applicable for languages with a medium-sized amount of available speech data. The designed policy was, informatively, also applied to training a 10000-hour model, which is compared with third-party systems. | en |
| dc.format | 75 s. | cs |
| dc.identifier.uri | https://dspace.tul.cz/handle/15240/177331 | |
| dc.language.iso | AN | cs |
| dc.subject | automatické rozpoznávání řeči | cs |
| dc.subject | augmentace dat | cs |
| dc.subject | rozpoznávání vzdálené řeči | cs |
| dc.subject | end-to-end rozpoznávání řeči | cs |
| dc.subject | WeNet | cs |
| dc.title | Data Augmentation Methods for Improving Performance of E2E ASR Systems on Distant Speech | cs |
| dc.title | Data Augmentation Methods for Improving Performance of E2E ASR Systems on Distant Speech | en |
| dc.type | diplomová práce | cs |
| local.degree.abbreviation | Navazující | cs |
| local.identifier.author | M23000123 | cs |
| local.identifier.stag | 47823 | cs |
Files
Original bundle
1 - 4 of 4
Loading...
- Name:
- MOTEJLEK_DP_FINAL_2.pdf
- Size:
- 2.28 MB
- Format:
- Adobe Portable Document Format
- Description:
- VŠKP ( 7.5.2025 12:07 )
Loading...
- Name:
- DP_Martin Motejlek_vedoucí.pdf
- Size:
- 306.34 KB
- Format:
- Adobe Portable Document Format
- Description:
- Posudek vedoucího VŠKP ( 29.5.2025 15:27 )
Loading...
- Name:
- DP_Martin Motejlek_oponent.pdf
- Size:
- 642.21 KB
- Format:
- Adobe Portable Document Format
- Description:
- Posudek oponenta VŠKP ( 2.6.2025 13:07 )
Loading...
- Name:
- ProtokolSPrubehemObhajobySTAG.pdf
- Size:
- 39.07 KB
- Format:
- Adobe Portable Document Format
- Description:
- Průběh obhajoby VŠKP ( 11.6.2025 12:14 )