Segmentace řečových trénovacích dat pro učení systémů ASR

Abstract
Tato diplomová práce se zabývá vývojem poměrně rozsáhlého systému pro vytěžování a přípravu trénovacích dat pro účely trénování systémů rozpoznávání řeči. Začíná přehledem historického vývoje automatických systémů rozpoznávání řeči od tradičních po E2E systémy, přičemž zdůrazňuje klíčovou roli dat v jejich tvorbě. Na základě potřeby velkého množství dat je navržen systém pro jejich automatickou těžbu, který se skládá ze tří částí: zpracování audia, zpracování textu a přiřazení textů k audio segmentům. Zpracování audia zahrnuje předzpracování, detekci řečové aktivity a následné rozdělení audia na segmenty obsahující řeč. Zpracování textu se věnuje úpravě textů podle požadavků uživatele a poskytuje k tomu potřebné nástroje. Přiřazení textu k audio segmentům zahrnuje rozpoznávání audio segmentů a přiřazení vhodných textů na základě jejich podobnosti. Navržený systém je experimentálně ověřen na jednoduchých českých a komplexních dánských datech, přičemž se podařilo vytěžit téměř 90 % jednoduchých českých dat a téměř 48 % komplexních dánských dat. Data vytěžená v rámci dánského experimentu byla následně použita při trénování nového modelu. Nakonec se tento nový model použil pro opětovné vytěžení dat, kde se ukázalo, že byl schopen vytěžit téměř o 6 % více dat než jeho předchůdce, a tudíž vytěžená data napomohla ke zlepšení modelu.
This thesis deals with the development of a rather large-scale system for mining and preparing training data for the purpose of training speech recognition systems. It starts with an overview of the historical development of automatic speech recognition systems, from traditional to E2E systems, highlighting the key role of data in their design. Based on the need for large amounts of data, a system for automatic data mining is proposed, which consists of three parts: audio processing, text processing, and text matching to audio segments. Audio processing involves pre-processing, speech activity detection and subsequent segmentation of audio into segments containing speech. Text processing deals with the editing of texts according to the user's requirements and provides the necessary tools to do so. Text to audio segment matching involves recognizing audio segments and matching appropriate texts based on their similarity. The proposed system is experimentally validated on simple Czech and complex Danish data, and it has been able to extract almost 90 % of the simple Czech data and almost 48 % of the complex Danish data. The data extracted in the Danish experiment were subsequently used to train the new model. Finally, this new model was used to re-extract the data, where it was shown to be able to extract almost 6 % more data than its predecessor and thus the extracted data helped to improve the model.
Description
Subject(s)
rozpoznávání řeči, těžba dat, zpracování audia, zpracování textu, trénovací data
Citation
ISSN
ISBN