Identifikace indických jazyků z audio nahrávky s využitím hlubokých neuronových sítí

Hájek, Martin

Identifikace indických jazyků z audio nahrávky s využitím hlubokých neuronových sítí

Files

Martin_Hajek_BP.pdf(1.28 MB)

BP_Martin_Hajek_oponent.pdf(742.58 KB)

BP_Martin_Hajek_vdouci.pdf(822.31 KB)

ProtokolSPrubehemObhajobySTAG.pdf(31.91 KB)

Authors

Hájek, Martin

Abstract

Identifikace jazyka je disciplína, ve které je snaha co nejpřesněji klasifikovat jazyk z promluvy. Tato práce se věnuje identifikaci jazyka z audio nahrávek. Pro klasifikaci bylo vybráno šest indických jazyků. Použité nahrávky pocházely z Multilingual and Code-Switching 2021, kde se jedna úloha zabývala touto problematikou. Úloha je řešena ve dvou po sobě jdoucích krocích. V prvním kroku byly extrahovány nízkoúrovňové vlastnosti jazyka (akustická stránka). Pro extrakci vlastností zde byly zvoleny dva přístupy. První zvolený způsob reprezentace řeči jsou Mel-frekvenční kepstrální koeficienty (MFCC). Tyto příznaky jsou velmi využívané a ukazují se jako velmi vhodné. Jako další způsob reprezentace řeči, byly vybrány bottleneck příznaky. Tyto příznaky se generují pomocí předtrénované neuronové sítě. Jejich obliba a použití roste zejména v posledních letech. V dalším kroku je nutné příznaky klasifikovat. Pro klasifikaci zde bylo zvoleno strojové učení, konkrétně hluboké neuronové sítě. Jedná se o velmi užívanou metodu pro řešení této problematiky. Pro otestování byly vybrány dvě architektury, a to dopředné a konvoluční neuronové sítě.Se vstupy v podobě MFCC příznaků se u dopředných sítí podařilo dosáhnout úspěšnosti 73 % a u konvolučních 71 %. U obou architektur byly provedeny rozsáhlé testy, které měly za účel zlepšení její úspěšnosti. Po otestování obou architektur na MFCC příznacích byly vstupy vyměněny za bottleneck příznaky. S využitím těchto příznaků se podařilo zvýšit úspěšnost u obou architektur o 10 %. Pro porovnání byly v práci natrénovány převzaté návrhy sítí. Tyto návrhy nepřekonaly svou úspěšností návrhy vytvořené během práce. Jako nejlepší systém byly zvoleny dopředné neuronové sítě ve spojení s bottleneck příznaky s celkovou úspěšností 83 %. Na závěr práce byla vytvořena aplikace, která obsahuje modely natrénované během práce. Aplikace byla vytvořena pro Python pomocí Tkinter modulu. Aplikace má za úkol demonstrovat funkčnost jednotlivých řešení.
Language identification is a discipline in which the effort is made to classify language from speech as accurately as possible. This thesis is concerned with language identification from audio recordings. Six Indian languages were selected for classification. The recordings used came from Multilingual and Code-Switching 2021, where one task dealt with this issue.The issue is solved in two consecutive steps. In the first step, the low-level properties of the language were extracted (the acoustic side). Two approaches were chosen to extract the properties. The first chosen method of speech representation are Mel-frequency cepstral coefficients (MFCC). These features are widely used and are proven to be very suitable. As another way of speech representation, bottleneck features were chosen. These features are generated using a pre-trained neural network. Their popularity and use have been growing, especially in recent years. In the next step, the features are to be classified. Machine learning, specifically deep neural networks, was chosen for classification. This is a widely used method for solving this issue. Two architectures were selected for testing, namely feedforward and convolutional neural networks.With inputs in the form of MFCC features, a success rate of 73 % was achieved for feedforward networks and 71 % for convolutional networks. Extensive tests have been performed on both architectures to improve its success. After testing both architectures for MFCC features, the inputs were exchanged for bottleneck features. Using these features, the success rate of both architectures managed to increase by 10 %. For comparison, adopted network designs were trained in the work. These suggestions did not surpass the suggestions created during the work. Feedforward neural networks in combination with bottleneck features were chosen as the best system with an overall success rate of 83 %.Finally, a application was created, which contains models trained during the work. The application was created for Python using the Tkinter module and aims to demonstrate the functionality of individual solutions.

Subject(s)

Identifikace jazyka, DNN, CNN, MFCC, Bottleneck, Indické jazyky, Language identification, DNN, CNN, MFCC, Bottleneck, Indian languages

Item identifier

https://dspace.tul.cz/handle/15240/166146

Collections

Fakulta mechatroniky, informatiky a mezioborových studií

Show full item record