Detekce překrývajících se úseků řeči v audiozáznamech s využitím hlubokých neuronových sítí

dc.contributorBoháč Marek, Ing. Ph.D. : 68488
dc.contributor.advisorMatějů Lukáš, Ing. Ph.D. : 64645
dc.contributor.authorKovář, Jakub
dc.date.accessioned2022-11-04T08:15:36Z
dc.date.available2022-11-04T08:15:36Z
dc.date.committed2022-5-16
dc.date.defense2022-06-15
dc.date.issued2022-06-15
dc.date.submitted2021-10-12
dc.date.updated2022-6-15
dc.degree.levelIng.
dc.description.abstractTato práce se zabývá úlohou klasifikace neznámých audio nahrávek pro účely detekce překrývajících se úseků řeči. Práce zahrnuje popis překrývajících se úseků řeči a současných řešení její detekce v souvislosti především s neuronovými sítěmi. Jsou zde popsány metodiky a principy neuronových sítí a technologie použité pro účely vytvoření detektoru překrývajících se úseků řeči pomocí neuronových sítí. Pro trénování, validaci a vyhodnocení jsou vytvořeny umělé a ručně anotované datové sady. Reálné datové sady vznikly ruční anotací audio nahrávek společně s použitím již existujících reálných datových sad. K vytváření umělých dat, trénování a testování sítě byly vytvořeny programy v jazyce Python. Pro anotaci reálných dat vznikla aplikace v MATLAB-u. Jsou zde navrženy lineární, konvoluční a time delay neuronové sítě, které jsou experimentálně laděny. Nejlepší z nich jsou trénovány na úplné trénovací datové sadě. Natrénované sítě dokázaly dosáhnout velmi vysoké přesnosti detekce na umělých datech. Z provedených experimentů lze usoudit, že konvoluční nebo time delay architektury by měly na reálných datech dosáhnout stejně dobrých výsledků. V případě, že by měli k dispozici větší množství reálných trénovacích dat.cs
dc.description.abstractThis thesis describes clasification task of overlapping speech detection with neural networks. It includes what is an overlapped speech and what are the types of neural networks used for detecting it. There are explanations of neural network principles and their training methodologies. Also there are synthetic, real training, validation and testing datasets created. The real dataset consists of two parts. One part was created by manual anotation of audio recordings. The other part was taken from manually anotated existing datasets. Python script generating synthetic overlapping speech was made for creating synthetic datasets. MATLAB application was created for annotating real audio recordings. Linear, convolutional and time delay neural networks were used for detecting overlapping speech. These networks were experimentally tuned at first. Then the best of them were evaluated on test datasets.Neural networks managed to achieve very high accuracy on synthetic testing dataset. Based on experimental results, it is feasible that the convolutional or time delay neural networks would achieve similar results if they would be given more real training data.en
dc.description.mark2
dc.format71 stran
dc.format.extent-
dc.identifier.signatureV 202204099
dc.identifier.urihttps://dspace.tul.cz/handle/15240/166212
dc.language.isocs
dc.relation.isbasedonrenewcommandlabelenumi[theenumi] beginarab item parBISHOP, Christopher M. Pattern recognition and machine learning. [New York]: Springer, c2006. Information science and statistics. ISBN 978-0-387-31073-2.par item parGOODFELLOW, Ian, Yoshua BENGIO a Aaron COURVILLE. Deep learning. Cambridge, MA: MIT press, [2016]. Adaptive computation and machine learning series. ISBN 978-0-262-03561-3.par item parMÁLEK, Jiří a Jindřich ŽĎÁNSKÝ. Voice-Activity and Overlapped Speech Detection Using x-Vectors. Text, Speech, and Dialogue. Cham: Springer International Publishing, 2020, s. 366-376. Lecture Notes in Computer Science. ISBN 978-3-030-58322-4.par endarab
dc.rightsVysokoškolská závěrečná práce je autorské dílo chráněné dle zákona č. 121/2000 Sb., autorský zákon, ve znění pozdějších předpisů. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem https://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou https://knihovna.tul.cz/document/26cs
dc.rightsA university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act. https://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics https://knihovna.tul.cz/document/26en
dc.rights.urihttps://knihovna.tul.cz/document/26
dc.rights.urihttps://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf
dc.subjectpřekrývající se řečcs
dc.subjectMFCCcs
dc.subjectlineární neuronové sítěcs
dc.subjecttime delay neuronové sítěcs
dc.subjectkonvoluční neuronové sítěcs
dc.subjectoverlapping speechen
dc.subjectMFCCen
dc.subjectlinear neural networksen
dc.subjectconvolutional neural networksen
dc.subjecttime delay neural networksen
dc.titleDetekce překrývajících se úseků řeči v audiozáznamech s využitím hlubokých neuronových sítícs
dc.titleCrosstalk Detection in Audio Recordings Using Deep Neural Networksen
dc.typediplomová prácecs
local.degree.abbreviationNavazující
local.degree.disciplineIT-N
local.degree.programmeElektrotechnika a informatika
local.degree.programmeabbreviationN2612
local.department.abbreviationITE
local.facultyFakulta mechatroniky, informatiky a mezioborových studiícs
local.faculty.abbreviationFM
local.identifier.authorM20000168
local.identifier.stag43021
local.identifier.verbis
local.identifier.verbis62346951-ebdf-4e1c-835d-49afd2576f7c
local.note.administratorsautomat
local.note.secrecyPovoleno ZverejnitPraci Povoleno ZverejnitPosudky
local.poradovecislo4099
Files
Original bundle
Now showing 1 - 5 of 5
Loading...
Thumbnail Image
Name:
Diplomova_prace.pdf
Size:
1.49 MB
Format:
Adobe Portable Document Format
Description:
VSKP
Loading...
Thumbnail Image
Name:
Prilohy.zip
Size:
86.97 KB
Format:
Unknown data format
Description:
VSKP__priloha
Loading...
Thumbnail Image
Name:
DP_Jakub_Kovar_oponent.pdf
Size:
508.3 KB
Format:
Adobe Portable Document Format
Description:
Posudek_oponenta_VSKP
Loading...
Thumbnail Image
Name:
DP_Jakub_Kovar_vedouci.pdf
Size:
867.39 KB
Format:
Adobe Portable Document Format
Description:
Posudek_vedouciho_VSKP
Loading...
Thumbnail Image
Name:
ProtokolSPrubehemObhajobySTAG.pdf
Size:
31.97 KB
Format:
Adobe Portable Document Format
Description:
Prubeh_obhajoby_VSKP