Detekce překrývajících se úseků řeči v audiozáznamech s využitím hlubokých neuronových sítí
| dc.contributor | Boháč Marek, Ing. Ph.D. : 68488 | |
| dc.contributor.advisor | Matějů Lukáš, Ing. Ph.D. : 64645 | |
| dc.contributor.author | Kovář, Jakub | |
| dc.date.accessioned | 2022-11-04T08:15:36Z | |
| dc.date.available | 2022-11-04T08:15:36Z | |
| dc.date.committed | 2022-5-16 | |
| dc.date.defense | 2022-06-15 | |
| dc.date.issued | 2022-06-15 | |
| dc.date.submitted | 2021-10-12 | |
| dc.date.updated | 2022-6-15 | |
| dc.degree.level | Ing. | |
| dc.description.abstract | Tato práce se zabývá úlohou klasifikace neznámých audio nahrávek pro účely detekce překrývajících se úseků řeči. Práce zahrnuje popis překrývajících se úseků řeči a současných řešení její detekce v souvislosti především s neuronovými sítěmi. Jsou zde popsány metodiky a principy neuronových sítí a technologie použité pro účely vytvoření detektoru překrývajících se úseků řeči pomocí neuronových sítí. Pro trénování, validaci a vyhodnocení jsou vytvořeny umělé a ručně anotované datové sady. Reálné datové sady vznikly ruční anotací audio nahrávek společně s použitím již existujících reálných datových sad. K vytváření umělých dat, trénování a testování sítě byly vytvořeny programy v jazyce Python. Pro anotaci reálných dat vznikla aplikace v MATLAB-u. Jsou zde navrženy lineární, konvoluční a time delay neuronové sítě, které jsou experimentálně laděny. Nejlepší z nich jsou trénovány na úplné trénovací datové sadě. Natrénované sítě dokázaly dosáhnout velmi vysoké přesnosti detekce na umělých datech. Z provedených experimentů lze usoudit, že konvoluční nebo time delay architektury by měly na reálných datech dosáhnout stejně dobrých výsledků. V případě, že by měli k dispozici větší množství reálných trénovacích dat. | cs |
| dc.description.abstract | This thesis describes clasification task of overlapping speech detection with neural networks. It includes what is an overlapped speech and what are the types of neural networks used for detecting it. There are explanations of neural network principles and their training methodologies. Also there are synthetic, real training, validation and testing datasets created. The real dataset consists of two parts. One part was created by manual anotation of audio recordings. The other part was taken from manually anotated existing datasets. Python script generating synthetic overlapping speech was made for creating synthetic datasets. MATLAB application was created for annotating real audio recordings. Linear, convolutional and time delay neural networks were used for detecting overlapping speech. These networks were experimentally tuned at first. Then the best of them were evaluated on test datasets.Neural networks managed to achieve very high accuracy on synthetic testing dataset. Based on experimental results, it is feasible that the convolutional or time delay neural networks would achieve similar results if they would be given more real training data. | en |
| dc.description.mark | 2 | |
| dc.format | 71 stran | |
| dc.format.extent | - | |
| dc.identifier.signature | V 202204099 | |
| dc.identifier.uri | https://dspace.tul.cz/handle/15240/166212 | |
| dc.language.iso | cs | |
| dc.relation.isbasedon | renewcommandlabelenumi[theenumi] beginarab item parBISHOP, Christopher M. Pattern recognition and machine learning. [New York]: Springer, c2006. Information science and statistics. ISBN 978-0-387-31073-2.par item parGOODFELLOW, Ian, Yoshua BENGIO a Aaron COURVILLE. Deep learning. Cambridge, MA: MIT press, [2016]. Adaptive computation and machine learning series. ISBN 978-0-262-03561-3.par item parMÁLEK, Jiří a Jindřich ŽĎÁNSKÝ. Voice-Activity and Overlapped Speech Detection Using x-Vectors. Text, Speech, and Dialogue. Cham: Springer International Publishing, 2020, s. 366-376. Lecture Notes in Computer Science. ISBN 978-3-030-58322-4.par endarab | |
| dc.rights | Vysokoškolská závěrečná práce je autorské dílo chráněné dle zákona č. 121/2000 Sb., autorský zákon, ve znění pozdějších předpisů. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem https://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou https://knihovna.tul.cz/document/26 | cs |
| dc.rights | A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act. https://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics https://knihovna.tul.cz/document/26 | en |
| dc.rights.uri | https://knihovna.tul.cz/document/26 | |
| dc.rights.uri | https://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf | |
| dc.subject | překrývající se řeč | cs |
| dc.subject | MFCC | cs |
| dc.subject | lineární neuronové sítě | cs |
| dc.subject | time delay neuronové sítě | cs |
| dc.subject | konvoluční neuronové sítě | cs |
| dc.subject | overlapping speech | en |
| dc.subject | MFCC | en |
| dc.subject | linear neural networks | en |
| dc.subject | convolutional neural networks | en |
| dc.subject | time delay neural networks | en |
| dc.title | Detekce překrývajících se úseků řeči v audiozáznamech s využitím hlubokých neuronových sítí | cs |
| dc.title | Crosstalk Detection in Audio Recordings Using Deep Neural Networks | en |
| dc.type | diplomová práce | cs |
| local.degree.abbreviation | Navazující | |
| local.degree.discipline | IT-N | |
| local.degree.programme | Elektrotechnika a informatika | |
| local.degree.programmeabbreviation | N2612 | |
| local.department.abbreviation | ITE | |
| local.faculty | Fakulta mechatroniky, informatiky a mezioborových studií | cs |
| local.faculty.abbreviation | FM | |
| local.identifier.author | M20000168 | |
| local.identifier.stag | 43021 | |
| local.identifier.verbis | ||
| local.identifier.verbis | 62346951-ebdf-4e1c-835d-49afd2576f7c | |
| local.note.administrators | automat | |
| local.note.secrecy | Povoleno ZverejnitPraci Povoleno ZverejnitPosudky | |
| local.poradovecislo | 4099 |
Files
Original bundle
1 - 5 of 5
Loading...
- Name:
- Diplomova_prace.pdf
- Size:
- 1.49 MB
- Format:
- Adobe Portable Document Format
- Description:
- VSKP
Loading...
- Name:
- DP_Jakub_Kovar_oponent.pdf
- Size:
- 508.3 KB
- Format:
- Adobe Portable Document Format
- Description:
- Posudek_oponenta_VSKP
Loading...
- Name:
- DP_Jakub_Kovar_vedouci.pdf
- Size:
- 867.39 KB
- Format:
- Adobe Portable Document Format
- Description:
- Posudek_vedouciho_VSKP
Loading...
- Name:
- ProtokolSPrubehemObhajobySTAG.pdf
- Size:
- 31.97 KB
- Format:
- Adobe Portable Document Format
- Description:
- Prubeh_obhajoby_VSKP