Separace řečových signálů pomocí metod strojového učení

Matoušek, Martin

Separace řečových signálů pomocí metod strojového učení

Files

dp_matousek.pdf(939.7 KB)

prilohy_matousek_dp.rar(174.56 KB)

DP_Martin Matoušek_vedoucí.pdf(941.63 KB)

DP_Martin Matoušek_oponent.pdf(801.05 KB)

ProtokolSPrubehemObhajobySTAG.pdf(39.21 KB)

Date

2023-06-21

Authors

Matoušek, Martin

Abstract

Tato diplomová práce se zabývá problematikou separace řeči, zkoumá chování moderních separačních sítí na off-domain datech a zabývá se rozšířením trénovací množiny za účelem zprovoznění separace řeči na těchto datech. Nejprve porovnává účinnost různých metod, které řeší úlohu separace řeči na datech s dvěma řečníky. Po porovnání byla pro experimenty vybrána konvoluční síť Conv-TasNet jako poměrně účinná metoda, která má zároveň rychlé trénování a poměrně malou velikost modelu. Hlavním tématem této práce je zkoumání toho, jak se metoda separace řeči s učitelem chová na off-domain datech. Tento problém může nastat například změnou jazyka mluvčích, změnou dozvuku prostředí nebo počtu řečníků. Z těchto rozsáhlých alternativních možností byla jako hlavní náplň práce zvolena změna jazyka, která byla podrobně zkoumána kvalitativně i kvantitativně. Do menší míry a nad rámec zadání byly zkoumány i experimenty s proměnlivým počtem řečníků. V rámci změny jazyka řečníků je tato změna dat problém a model trénovaný na angličtině při použití na taiwanském korpusu, který v tomto případě představuje off-domain data, nefunguje. V rámci experimentů pro zprovoznění modelu na různých jazycích, byly modely trénované na rozšířených korpusech kvalitní i na datech obsahujících taiwanštinu. Důležité je ale zmínit, že při přítomnosti různých jazyků ve směsi, je nutné do trénovací sady přidat kromě korpusů v angličtině a taiwanštině i korpus, který je kombinuje. Tento koncept rozšíření datové sady pro zprovoznění modelů na různých jazycích se ukázal jako efektivní. Částečně bylo zpracováno i téma různého počtu mluvčích. I v rámci testování na datech s různým počtem řečníků se ukázalo, že model trénovaný na dvou řečnících na data s jedním řečníkem není účinný. Rozšíření datové sady o taková data umožnilo modelu, i přes určitá omezení, pracovat s daty s jedním řečníkem. Také ale vyšly najevo nedostatky sítě Conv-TasNet při práci s jiným počtem řečníků.
This thesis addresses the problem of speech separation, investigates the behavior of modern separation networks on off-domain data and explores training set extension to allow speech separation on this data. First the effectiveness of different methods that address speech separation on two speaker data is compared. After the comparison, Conv-TasNet was selected for the experiments as a relatively efficient method that has both fast training and relatively small model size. The main focus of this paper is to determine how supervised speech separation method behaves on off-domain data. From these extensive alternatives, language change was chosen as the main focus of the thesis and was investigated in detail both qualitatively and quantitatively. To a lesser extent and beyond the scope of this thesis, experiments with a variable number of speakers were also investigated. Changing the language of the speakers poses a problem and the model trained on English does not perform well when used on the Taiwanese corpus, which represents off-domain data in this case. In experiments to create model functioning on different languages, the models trained on the extended corpora were effective even on data containing Taiwanese speakers. However, it is important to mention that when both languages are present in the mixture, it is necessary to add corpus combining both languages in addition to English and Taiwanese corpora to the training set. This concept of extending the dataset of the models for different languages has proven to be effective. The topic of the different number of speakers was partially researched. While testing on data with different number of speakers, it turned out that the model trained on two speakers is not effective on data with one speaker. Extending the dataset with such data allowed the model to work with single-speaker data, despite some limitations. However, the shortcomings of Conv-TasNet in working with a different number of speakers also became apparent.

Subject(s)

separace řeči, off-domain data, různé jazyky, angličtina, taiwanština, různý počet řečníků, rozšíření datové sady, Conv-TasNet

Item identifier

https://dspace.tul.cz/handle/15240/174451

Collections

Fakulta mechatroniky, informatiky a mezioborových studií

Show full item record