Identifikace indických jazyků z audio nahrávky s využitím hlubokých neuronových sítí

dc.contributorRott Michal, Ing. Ph.D. : 67959
dc.contributor.advisorMatějů Lukáš, Ing. Ph.D. : 64645
dc.contributor.authorHájek, Martin
dc.date.accessioned2022-11-04T08:02:42Z
dc.date.available2022-11-04T08:02:42Z
dc.date.committed2022-5-16
dc.date.defense2022-06-14
dc.date.submitted2021-10-12
dc.date.updated2022-6-14
dc.degree.levelBc.
dc.description.abstractIdentifikace jazyka je disciplína, ve které je snaha co nejpřesněji klasifikovat jazyk z promluvy. Tato práce se věnuje identifikaci jazyka z audio nahrávek. Pro klasifikaci bylo vybráno šest indických jazyků. Použité nahrávky pocházely z Multilingual and Code-Switching 2021, kde se jedna úloha zabývala touto problematikou. Úloha je řešena ve dvou po sobě jdoucích krocích. V prvním kroku byly extrahovány nízkoúrovňové vlastnosti jazyka (akustická stránka). Pro extrakci vlastností zde byly zvoleny dva přístupy. První zvolený způsob reprezentace řeči jsou Mel-frekvenční kepstrální koeficienty (MFCC). Tyto příznaky jsou velmi využívané a ukazují se jako velmi vhodné. Jako další způsob reprezentace řeči, byly vybrány bottleneck příznaky. Tyto příznaky se generují pomocí předtrénované neuronové sítě. Jejich obliba a použití roste zejména v posledních letech. V dalším kroku je nutné příznaky klasifikovat. Pro klasifikaci zde bylo zvoleno strojové učení, konkrétně hluboké neuronové sítě. Jedná se o velmi užívanou metodu pro řešení této problematiky. Pro otestování byly vybrány dvě architektury, a to dopředné a konvoluční neuronové sítě.Se vstupy v podobě MFCC příznaků se u dopředných sítí podařilo dosáhnout úspěšnosti 73 % a u konvolučních 71 %. U obou architektur byly provedeny rozsáhlé testy, které měly za účel zlepšení její úspěšnosti. Po otestování obou architektur na MFCC příznacích byly vstupy vyměněny za bottleneck příznaky. S využitím těchto příznaků se podařilo zvýšit úspěšnost u obou architektur o 10 %. Pro porovnání byly v práci natrénovány převzaté návrhy sítí. Tyto návrhy nepřekonaly svou úspěšností návrhy vytvořené během práce. Jako nejlepší systém byly zvoleny dopředné neuronové sítě ve spojení s bottleneck příznaky s celkovou úspěšností 83 %. Na závěr práce byla vytvořena aplikace, která obsahuje modely natrénované během práce. Aplikace byla vytvořena pro Python pomocí Tkinter modulu. Aplikace má za úkol demonstrovat funkčnost jednotlivých řešení.cs
dc.description.abstractLanguage identification is a discipline in which the effort is made to classify language from speech as accurately as possible. This thesis is concerned with language identification from audio recordings. Six Indian languages were selected for classification. The recordings used came from Multilingual and Code-Switching 2021, where one task dealt with this issue.The issue is solved in two consecutive steps. In the first step, the low-level properties of the language were extracted (the acoustic side). Two approaches were chosen to extract the properties. The first chosen method of speech representation are Mel-frequency cepstral coefficients (MFCC). These features are widely used and are proven to be very suitable. As another way of speech representation, bottleneck features were chosen. These features are generated using a pre-trained neural network. Their popularity and use have been growing, especially in recent years. In the next step, the features are to be classified. Machine learning, specifically deep neural networks, was chosen for classification. This is a widely used method for solving this issue. Two architectures were selected for testing, namely feedforward and convolutional neural networks.With inputs in the form of MFCC features, a success rate of 73 % was achieved for feedforward networks and 71 % for convolutional networks. Extensive tests have been performed on both architectures to improve its success. After testing both architectures for MFCC features, the inputs were exchanged for bottleneck features. Using these features, the success rate of both architectures managed to increase by 10 %. For comparison, adopted network designs were trained in the work. These suggestions did not surpass the suggestions created during the work. Feedforward neural networks in combination with bottleneck features were chosen as the best system with an overall success rate of 83 %.Finally, a application was created, which contains models trained during the work. The application was created for Python using the Tkinter module and aims to demonstrate the functionality of individual solutions.en
dc.description.mark2
dc.format59
dc.format.extentIlustrace, Schémata, Grafy, Tabulky, Mapy Žádné.
dc.identifier.signatureV 202204033
dc.identifier.urihttps://dspace.tul.cz/handle/15240/166146
dc.language.isocs
dc.relation.isbasedonrenewcommandlabelenumi[theenumi] beginarab item BISHOP, Christopher M. Pattern recognition and machine learning. [New York]: Springer, c2006. Information science and statistics. ISBN 978-0-387-31073-2. item GOODFELLOW, Ian, Yoshua BENGIO a Aaron COURVILLE. Deep learning. Cambridge, MA: MIT press, [2016]. Adaptive computation and machine learning series. ISBN 978-0-262-03561-3. item DIWAN, Anuj, Rakesh VAIDEESWARAN, Sanket SHAH, et al. MUCS 2021: Multilingual and Code-Switching ASR Challenges for Low Resource Indian Languages. In: Interspeech 2021. ISCA: ISCA, 2021, s. 2446-2450. endarab
dc.rightsVysokoškolská závěrečná práce je autorské dílo chráněné dle zákona č. 121/2000 Sb., autorský zákon, ve znění pozdějších předpisů. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem https://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou https://knihovna.tul.cz/document/26cs
dc.rightsA university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act. https://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics https://knihovna.tul.cz/document/26en
dc.rights.urihttps://knihovna.tul.cz/document/26
dc.rights.urihttps://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf
dc.subjectIdentifikace jazykacs
dc.subjectDNNcs
dc.subjectCNNcs
dc.subjectMFCCcs
dc.subjectBottleneckcs
dc.subjectIndické jazykycs
dc.subjectLanguage identificationen
dc.subjectDNNen
dc.subjectCNNen
dc.subjectMFCCen
dc.subjectBottlenecken
dc.subjectIndian languagesen
dc.titleIdentifikace indických jazyků z audio nahrávky s využitím hlubokých neuronových sítícs
dc.titleSpoken Language Identification of Indian Languages Using Deep Neural Networksen
dc.typebakalářská prácecs
local.degree.abbreviationBakalářský
local.degree.disciplineAI
local.degree.programmeInformační technologie
local.degree.programmeabbreviationB0613A140005
local.department.abbreviationITE
local.facultyFakulta mechatroniky, informatiky a mezioborových studiícs
local.faculty.abbreviationFM
local.identifier.authorM19000014
local.identifier.stag43025
local.identifier.verbis
local.identifier.verbis99576dc8-e2d6-4de2-b771-27c768cc61f6
local.note.administratorsautomat
local.note.secrecyPovoleno ZverejnitPraci Povoleno ZverejnitPosudky
local.poradovecislo4033
Files
Original bundle
Now showing 1 - 4 of 4
Loading...
Thumbnail Image
Name:
Martin_Hajek_BP.pdf
Size:
1.28 MB
Format:
Adobe Portable Document Format
Description:
VSKP
Loading...
Thumbnail Image
Name:
BP_Martin_Hajek_oponent.pdf
Size:
742.58 KB
Format:
Adobe Portable Document Format
Description:
Posudek_oponenta_VSKP
Loading...
Thumbnail Image
Name:
BP_Martin_Hajek_vdouci.pdf
Size:
822.31 KB
Format:
Adobe Portable Document Format
Description:
Posudek_vedouciho_VSKP
Loading...
Thumbnail Image
Name:
ProtokolSPrubehemObhajobySTAG.pdf
Size:
31.91 KB
Format:
Adobe Portable Document Format
Description:
Prubeh_obhajoby_VSKP