Browsing by Author "Kynych, František"
Now showing 1 - 2 of 2
Results Per Page
Sort Options
- ItemPočítačová syntéza řeči pomocí umělých neuronových sítíKynych, František; Červa Petr, Ing. Ph.D. : 55712Tato diplomová práce se zabývá syntézou řeči pomocí neuronových sítí. Cílem bylo prozkoumání a ověření současných přístupů využívajících neuronové sítě a pomocí nejlepší architektury natrénování mužského a ženského hlasu. Dále porovnání s komerčními systémy a vytvoření demonstrační webové aplikace.Pro experimenty byly vybrány DeepVoice 3, Tacotron 2 a WaveGlow architektury. Nejsrozumitelnější řeči dosahoval mužský hlas Tacotron 2 a WaveGlow architektury, proto byl vybrán pro porovnání s komerčními systémy. Porovnávání probíhalo prostřednictvím poslechových testů, pro které bylo vytvořeno prostředí v demonstrační webové aplikaci. Hodnocení se zúčastnilo 56 lidí a celkem bylo ohodnoceno 1060 nahrávek od každého systému. Výsledek této diplomové práce byl srovnatelný s komerčně používanými systémy a překonal standardní systém Googlu, který nevyužívá neuronové sítě. Nad rámec zadání byla řešena fonetická transkripce pro dosažení lepší kvality syntetizované řeči a dále byl Tacotron 2 model rozšířen o vektory mluvčího (tzv. X-Vektory), díky kterým se podařilo měnit hlas dle pohlaví osoby přivedeného vektoru.
- ItemVyužití neuronových sítí pro automatickou fonetickou transkripciKynych, František; Červa Petr, Ing. Ph.D. : 55712; Simová Jozefína, doc. Ing. Ph.D. Skolitel : 55316; Málek Jiří, Ing. Ph.D. Konzultant : 61653; Svrček Ján, Ing. Konzultant2 : 66454Tato bakalářská práce je zaměřena na automatickou fonetickou transkripci pomocí neuronových sítí. Hlavním cílem bylo využít neuronové sítě a výsledky porovnat s chybovostí dosud používaného systému Baseline pro automatické generování fonetické transkripce. K řešení je použit Sequence-to-Sequence G2P toolkit, který je vyvíjen skupinou CMU Sphinx přímo pro tuto úlohu a dále byl upraven Neural Machine Translation toolkit, ten původně sloužil pro překlad z jednoho jazyka do jiného, ale poskytoval řadu dalších metod, které bylo možné vyzkoušet. Pomocí těchto toolkitů se postupně hledala architektura rekurentní neuronové sítě s nejmenší chybovostí. Výsledky experimentování byly porovnány na stejné sadě dat se systémem Baseline. Hlavním dosaženým výsledkem je menší chybovost tohoto systému, u češtiny se podařilo relativně snížit chybovost o 41,5 %, u angličtiny o 22 % a u švédštiny o 33,5 %. Pomocí nejlepšího modelu byly hledány chyby v české slovní zásobě, používané na ústavu ITE. Našlo se 10 515 potenciálních chyb, které se musely ručně kontrolovat, zhruba u 10 % z nich se jednalo o chyby skutečné.