Detekce překrývajících se úseků řeči v audiozáznamech s využitím hlubokých neuronových sítí
Loading...
Date
2022-06-15
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
Tato práce se zabývá úlohou klasifikace neznámých audio nahrávek pro účely detekce překrývajících se úseků řeči. Práce zahrnuje popis překrývajících se úseků řeči a současných řešení její detekce v souvislosti především s neuronovými sítěmi. Jsou zde popsány metodiky a principy neuronových sítí a technologie použité pro účely vytvoření detektoru překrývajících se úseků řeči pomocí neuronových sítí. Pro trénování, validaci a vyhodnocení jsou vytvořeny umělé a ručně anotované datové sady. Reálné datové sady vznikly ruční anotací audio nahrávek společně s použitím již existujících reálných datových sad. K vytváření umělých dat, trénování a testování sítě byly vytvořeny programy v jazyce Python. Pro anotaci reálných dat vznikla aplikace v MATLAB-u. Jsou zde navrženy lineární, konvoluční a time delay neuronové sítě, které jsou experimentálně laděny. Nejlepší z nich jsou trénovány na úplné trénovací datové sadě. Natrénované sítě dokázaly dosáhnout velmi vysoké přesnosti detekce na umělých datech. Z provedených experimentů lze usoudit, že konvoluční nebo time delay architektury by měly na reálných datech dosáhnout stejně dobrých výsledků. V případě, že by měli k dispozici větší množství reálných trénovacích dat.
This thesis describes clasification task of overlapping speech detection with neural networks. It includes what is an overlapped speech and what are the types of neural networks used for detecting it. There are explanations of neural network principles and their training methodologies. Also there are synthetic, real training, validation and testing datasets created. The real dataset consists of two parts. One part was created by manual anotation of audio recordings. The other part was taken from manually anotated existing datasets. Python script generating synthetic overlapping speech was made for creating synthetic datasets. MATLAB application was created for annotating real audio recordings. Linear, convolutional and time delay neural networks were used for detecting overlapping speech. These networks were experimentally tuned at first. Then the best of them were evaluated on test datasets.Neural networks managed to achieve very high accuracy on synthetic testing dataset. Based on experimental results, it is feasible that the convolutional or time delay neural networks would achieve similar results if they would be given more real training data.
This thesis describes clasification task of overlapping speech detection with neural networks. It includes what is an overlapped speech and what are the types of neural networks used for detecting it. There are explanations of neural network principles and their training methodologies. Also there are synthetic, real training, validation and testing datasets created. The real dataset consists of two parts. One part was created by manual anotation of audio recordings. The other part was taken from manually anotated existing datasets. Python script generating synthetic overlapping speech was made for creating synthetic datasets. MATLAB application was created for annotating real audio recordings. Linear, convolutional and time delay neural networks were used for detecting overlapping speech. These networks were experimentally tuned at first. Then the best of them were evaluated on test datasets.Neural networks managed to achieve very high accuracy on synthetic testing dataset. Based on experimental results, it is feasible that the convolutional or time delay neural networks would achieve similar results if they would be given more real training data.
Description
Subject(s)
překrývající se řeč, MFCC, lineární neuronové sítě, time delay neuronové sítě, konvoluční neuronové sítě, overlapping speech, MFCC, linear neural networks, convolutional neural networks, time delay neural networks