dc.contributor	Rott Michal, Ing. Ph.D. : 67959
dc.contributor.advisor	Matějů Lukáš, Ing. Ph.D. : 64645
dc.contributor.author	Hájek, Martin
dc.date.accessioned	2022-11-04T08:02:42Z
dc.date.available	2022-11-04T08:02:42Z
dc.date.committed	2022-5-16
dc.date.defense	2022-06-14
dc.date.issued	2022-06-14
dc.date.submitted	2021-10-12
dc.date.updated	2022-6-14
dc.degree.level	Bc.
dc.description.abstract	Identifikace jazyka je disciplína, ve které je snaha co nejpřesněji klasifikovat jazyk z promluvy. Tato práce se věnuje identifikaci jazyka z audio nahrávek. Pro klasifikaci bylo vybráno šest indických jazyků. Použité nahrávky pocházely z Multilingual and Code-Switching 2021, kde se jedna úloha zabývala touto problematikou. Úloha je řešena ve dvou po sobě jdoucích krocích. V prvním kroku byly extrahovány nízkoúrovňové vlastnosti jazyka (akustická stránka). Pro extrakci vlastností zde byly zvoleny dva přístupy. První zvolený způsob reprezentace řeči jsou Mel-frekvenční kepstrální koeficienty (MFCC). Tyto příznaky jsou velmi využívané a ukazují se jako velmi vhodné. Jako další způsob reprezentace řeči, byly vybrány bottleneck příznaky. Tyto příznaky se generují pomocí předtrénované neuronové sítě. Jejich obliba a použití roste zejména v posledních letech. V dalším kroku je nutné příznaky klasifikovat. Pro klasifikaci zde bylo zvoleno strojové učení, konkrétně hluboké neuronové sítě. Jedná se o velmi užívanou metodu pro řešení této problematiky. Pro otestování byly vybrány dvě architektury, a to dopředné a konvoluční neuronové sítě.Se vstupy v podobě MFCC příznaků se u dopředných sítí podařilo dosáhnout úspěšnosti 73 % a u konvolučních 71 %. U obou architektur byly provedeny rozsáhlé testy, které měly za účel zlepšení její úspěšnosti. Po otestování obou architektur na MFCC příznacích byly vstupy vyměněny za bottleneck příznaky. S využitím těchto příznaků se podařilo zvýšit úspěšnost u obou architektur o 10 %. Pro porovnání byly v práci natrénovány převzaté návrhy sítí. Tyto návrhy nepřekonaly svou úspěšností návrhy vytvořené během práce. Jako nejlepší systém byly zvoleny dopředné neuronové sítě ve spojení s bottleneck příznaky s celkovou úspěšností 83 %. Na závěr práce byla vytvořena aplikace, která obsahuje modely natrénované během práce. Aplikace byla vytvořena pro Python pomocí Tkinter modulu. Aplikace má za úkol demonstrovat funkčnost jednotlivých řešení.	cs
dc.description.abstract	Language identification is a discipline in which the effort is made to classify language from speech as accurately as possible. This thesis is concerned with language identification from audio recordings. Six Indian languages were selected for classification. The recordings used came from Multilingual and Code-Switching 2021, where one task dealt with this issue.The issue is solved in two consecutive steps. In the first step, the low-level properties of the language were extracted (the acoustic side). Two approaches were chosen to extract the properties. The first chosen method of speech representation are Mel-frequency cepstral coefficients (MFCC). These features are widely used and are proven to be very suitable. As another way of speech representation, bottleneck features were chosen. These features are generated using a pre-trained neural network. Their popularity and use have been growing, especially in recent years. In the next step, the features are to be classified. Machine learning, specifically deep neural networks, was chosen for classification. This is a widely used method for solving this issue. Two architectures were selected for testing, namely feedforward and convolutional neural networks.With inputs in the form of MFCC features, a success rate of 73 % was achieved for feedforward networks and 71 % for convolutional networks. Extensive tests have been performed on both architectures to improve its success. After testing both architectures for MFCC features, the inputs were exchanged for bottleneck features. Using these features, the success rate of both architectures managed to increase by 10 %. For comparison, adopted network designs were trained in the work. These suggestions did not surpass the suggestions created during the work. Feedforward neural networks in combination with bottleneck features were chosen as the best system with an overall success rate of 83 %.Finally, a application was created, which contains models trained during the work. The application was created for Python using the Tkinter module and aims to demonstrate the functionality of individual solutions.	en
dc.description.mark	2
dc.format	59
dc.format.extent	Ilustrace, Schémata, Grafy, Tabulky, Mapy Žádné.
dc.identifier.signature	V 202204033
dc.identifier.uri	https://dspace.tul.cz/handle/15240/166146
dc.language.iso	cs
dc.relation.isbasedon	renewcommandlabelenumi[theenumi] beginarab item BISHOP, Christopher M. Pattern recognition and machine learning. [New York]: Springer, c2006. Information science and statistics. ISBN 978-0-387-31073-2. item GOODFELLOW, Ian, Yoshua BENGIO a Aaron COURVILLE. Deep learning. Cambridge, MA: MIT press, [2016]. Adaptive computation and machine learning series. ISBN 978-0-262-03561-3. item DIWAN, Anuj, Rakesh VAIDEESWARAN, Sanket SHAH, et al. MUCS 2021: Multilingual and Code-Switching ASR Challenges for Low Resource Indian Languages. In: Interspeech 2021. ISCA: ISCA, 2021, s. 2446-2450. endarab
dc.rights	Vysokoškolská závěrečná práce je autorské dílo chráněné dle zákona č. 121/2000 Sb., autorský zákon, ve znění pozdějších předpisů. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem https://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou https://knihovna.tul.cz/document/26	cs
dc.rights	A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act. https://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics https://knihovna.tul.cz/document/26	en
dc.rights.uri	https://knihovna.tul.cz/document/26
dc.rights.uri	https://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf
dc.subject	Identifikace jazyka	cs
dc.subject	DNN	cs
dc.subject	CNN	cs
dc.subject	MFCC	cs
dc.subject	Bottleneck	cs
dc.subject	Indické jazyky	cs
dc.subject	Language identification	en
dc.subject	DNN	en
dc.subject	CNN	en
dc.subject	MFCC	en
dc.subject	Bottleneck	en
dc.subject	Indian languages	en
dc.title	Identifikace indických jazyků z audio nahrávky s využitím hlubokých neuronových sítí	cs
dc.title	Spoken Language Identification of Indian Languages Using Deep Neural Networks	en
dc.type	bakalářská práce	cs
local.degree.abbreviation	Bakalářský
local.degree.discipline	AI
local.degree.programme	Informační technologie
local.degree.programmeabbreviation	B0613A140005
local.department.abbreviation	ITE
local.faculty	Fakulta mechatroniky, informatiky a mezioborových studií	cs
local.faculty.abbreviation	FM
local.identifier.author	M19000014
local.identifier.stag	43025
local.identifier.verbis
local.identifier.verbis	99576dc8-e2d6-4de2-b771-27c768cc61f6
local.note.administrators	automat
local.note.secrecy	Povoleno ZverejnitPraci Povoleno ZverejnitPosudky
local.poradovecislo	4033

Identifikace indických jazyků z audio nahrávky s využitím hlubokých neuronových sítí

Files

Original bundle

Collections