Separace řečových signálů pomocí metod strojového učení

dc.contributor.advisorMálek Jiří, Ing. Ph.D. :61653cs
dc.contributor.authorMatoušek, Martincs
dc.contributor.refereeKroul Martin, Ing. :65493cs
dc.date.accessioned2023-12-09T05:04:26Z
dc.date.available2023-12-09T05:04:26Z
dc.date.committed22.5.2023cs
dc.date.defense21.6.2023cs
dc.date.issued2023-06-21
dc.date.submitted24.10.2022cs
dc.description.abstractTato diplomová práce se zabývá problematikou separace řeči, zkoumá chování moderních separačních sítí na off-domain datech a zabývá se rozšířením trénovací množiny za účelem zprovoznění separace řeči na těchto datech. Nejprve porovnává účinnost různých metod, které řeší úlohu separace řeči na datech s dvěma řečníky. Po porovnání byla pro experimenty vybrána konvoluční síť Conv-TasNet jako poměrně účinná metoda, která má zároveň rychlé trénování a poměrně malou velikost modelu. Hlavním tématem této práce je zkoumání toho, jak se metoda separace řeči s učitelem chová na off-domain datech. Tento problém může nastat například změnou jazyka mluvčích, změnou dozvuku prostředí nebo počtu řečníků. Z těchto rozsáhlých alternativních možností byla jako hlavní náplň práce zvolena změna jazyka, která byla podrobně zkoumána kvalitativně i kvantitativně. Do menší míry a nad rámec zadání byly zkoumány i experimenty s proměnlivým počtem řečníků. V rámci změny jazyka řečníků je tato změna dat problém a model trénovaný na angličtině při použití na taiwanském korpusu, který v tomto případě představuje off-domain data, nefunguje. V rámci experimentů pro zprovoznění modelu na různých jazycích, byly modely trénované na rozšířených korpusech kvalitní i na datech obsahujících taiwanštinu. Důležité je ale zmínit, že při přítomnosti různých jazyků ve směsi, je nutné do trénovací sady přidat kromě korpusů v angličtině a taiwanštině i korpus, který je kombinuje. Tento koncept rozšíření datové sady pro zprovoznění modelů na různých jazycích se ukázal jako efektivní. Částečně bylo zpracováno i téma různého počtu mluvčích. I v rámci testování na datech s různým počtem řečníků se ukázalo, že model trénovaný na dvou řečnících na data s jedním řečníkem není účinný. Rozšíření datové sady o taková data umožnilo modelu, i přes určitá omezení, pracovat s daty s jedním řečníkem. Také ale vyšly najevo nedostatky sítě Conv-TasNet při práci s jiným počtem řečníků.cs
dc.description.abstractThis thesis addresses the problem of speech separation, investigates the behavior of modern separation networks on off-domain data and explores training set extension to allow speech separation on this data. First the effectiveness of different methods that address speech separation on two speaker data is compared. After the comparison, Conv-TasNet was selected for the experiments as a relatively efficient method that has both fast training and relatively small model size. The main focus of this paper is to determine how supervised speech separation method behaves on off-domain data. From these extensive alternatives, language change was chosen as the main focus of the thesis and was investigated in detail both qualitatively and quantitatively. To a lesser extent and beyond the scope of this thesis, experiments with a variable number of speakers were also investigated. Changing the language of the speakers poses a problem and the model trained on English does not perform well when used on the Taiwanese corpus, which represents off-domain data in this case. In experiments to create model functioning on different languages, the models trained on the extended corpora were effective even on data containing Taiwanese speakers. However, it is important to mention that when both languages are present in the mixture, it is necessary to add corpus combining both languages in addition to English and Taiwanese corpora to the training set. This concept of extending the dataset of the models for different languages has proven to be effective. The topic of the different number of speakers was partially researched. While testing on data with different number of speakers, it turned out that the model trained on two speakers is not effective on data with one speaker. Extending the dataset with such data allowed the model to work with single-speaker data, despite some limitations. However, the shortcomings of Conv-TasNet in working with a different number of speakers also became apparent.en
dc.format69 s.cs
dc.identifier.urihttps://dspace.tul.cz/handle/15240/174451
dc.language.isoCScs
dc.subjectseparace řečics
dc.subjectoff-domain datacs
dc.subjectrůzné jazykycs
dc.subjectangličtinacs
dc.subjecttaiwanštinacs
dc.subjectrůzný počet řečníkůcs
dc.subjectrozšíření datové sadycs
dc.subjectConv-TasNetcs
dc.titleSeparace řečových signálů pomocí metod strojového učenícs
dc.titleSpeech separation using machine learning-based methodsen
dc.typediplomová prácecs
local.degree.abbreviationNavazujícícs
local.identifier.authorM21000162cs
local.identifier.stag44622cs
Files
Original bundle
Now showing 1 - 5 of 5
Loading...
Thumbnail Image
Name:
dp_matousek.pdf
Size:
939.7 KB
Format:
Adobe Portable Document Format
Description:
VŠKP ( 11.5.2023 20:56 )
Loading...
Thumbnail Image
Name:
prilohy_matousek_dp.rar
Size:
174.56 KB
Format:
Unknown data format
Description:
VŠKP - příloha ( 11.5.2023 20:56 )
Loading...
Thumbnail Image
Name:
DP_Martin Matoušek_vedoucí.pdf
Size:
941.63 KB
Format:
Adobe Portable Document Format
Description:
Posudek vedoucího VŠKP ( 6.6.2023 13:53 )
Loading...
Thumbnail Image
Name:
DP_Martin Matoušek_oponent.pdf
Size:
801.05 KB
Format:
Adobe Portable Document Format
Description:
Posudek oponenta VŠKP ( 12.6.2023 13:42 )
Loading...
Thumbnail Image
Name:
ProtokolSPrubehemObhajobySTAG.pdf
Size:
39.21 KB
Format:
Adobe Portable Document Format
Description:
Průběh obhajoby VŠKP ( 21.6.2023 11:59 )