dc.contributor |
Kolorenč Jan, Ing. Ph.D. : 66659 |
|
dc.contributor.advisor |
Červa Petr, Ing. Ph.D. : 55712 |
|
dc.contributor.author |
Kynych, František |
|
dc.date.accessioned |
2020-09-22T18:57:09Z |
|
dc.date.available |
2020-09-22T18:57:09Z |
|
dc.date.submitted |
2019-10-9 |
|
dc.identifier.uri |
https://dspace.tul.cz/handle/15240/157758 |
|
dc.description.abstract |
Tato diplomová práce se zabývá syntézou řeči pomocí neuronových sítí. Cílem bylo prozkoumání a ověření současných přístupů využívajících neuronové sítě a pomocí nejlepší architektury natrénování mužského a ženského hlasu. Dále porovnání s komerčními systémy a vytvoření demonstrační webové aplikace.Pro experimenty byly vybrány DeepVoice 3, Tacotron 2 a WaveGlow architektury. Nejsrozumitelnější řeči dosahoval mužský hlas Tacotron 2 a WaveGlow architektury, proto byl vybrán pro porovnání s komerčními systémy. Porovnávání probíhalo prostřednictvím poslechových testů, pro které bylo vytvořeno prostředí v demonstrační webové aplikaci. Hodnocení se zúčastnilo 56 lidí a celkem bylo ohodnoceno 1060 nahrávek od každého systému. Výsledek této diplomové práce byl srovnatelný s komerčně používanými systémy a překonal standardní systém Googlu, který nevyužívá neuronové sítě. Nad rámec zadání byla řešena fonetická transkripce pro dosažení lepší kvality syntetizované řeči a dále byl Tacotron 2 model rozšířen o vektory mluvčího (tzv. X-Vektory), díky kterým se podařilo měnit hlas dle pohlaví osoby přivedeného vektoru. |
cs |
dc.description.abstract |
This diploma thesis is focused on speech synthesis using neural networks. The goal was to explore current approaches using neural networks and to train male and female voices using the best architecture. Then compare it with commercial systems and create a web demo application.DeepVoice 3, Tacotron 2 and WaveGlow architectures were selected for the experiments. The most intelligible speech was achieved by the male voice of the Tacotron 2 and WaveGlow architecture, so it was chosen for comparison with commercial systems. The comparison was performed through listening tests, for which an environment was created in a demonstration web application. The evaluation was attended by 56 people and a total of 1,060 recordings from each system were evaluated. The result of this diploma thesis was comparable to commercially used systems and surpassed the standard Google system, which does not use neural networks. In addition to the assignment, phonetic transcription was solved to achieve better quality of synthesized speech, and the Tacotron 2 model was extended by speaker vectors (so-called X-Vectors), thanks to which it was possible to change the voice according to the gender of the person of the input vector. |
en |
dc.format |
65 s. |
|
dc.format.extent |
1 |
|
dc.language.iso |
cs |
|
dc.relation.isbasedon |
beginarab renewcommandlabelenumi[arabicenumi] itemNOUZA, Jan, ed., KOLDOVSKÝ, Zbyněk, ed. a VÍCH, Robert, ed. Řeč a počítač: principy hlasové komunikace, úlohy, metody a aplikace: sborník článků. Vyd. 1. Liberec: Technická univerzita v Liberci, 2009. 235 s. ISBN 978-80-7372-548-8. itemShen, Jonathan et al. ?Natural TTS Synthesis by Conditioning Wavenet on MEL Spectrogram Predictions, IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) 2018, pp. 4779-4783. itemhttps://heartbeat.fritz.ai/a-2019-guide-to-speech-synthesis-with-deep-learning-630afcafb9dd endarab |
|
dc.rights |
Vysokoškolská závěrečná práce je autorské dílo chráněné dle zákona č. 121/2000 Sb., autorský zákon, ve znění pozdějších předpisů. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem https://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou https://knihovna.tul.cz/document/26 |
cs |
dc.rights |
A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act. https://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics https://knihovna.tul.cz/document/26 |
en |
dc.rights.uri |
https://knihovna.tul.cz/document/26 |
|
dc.rights.uri |
https://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf |
|
dc.subject |
syntéza řeči |
cs |
dc.subject |
neuronové sítě |
cs |
dc.subject |
syntéza řeči pro více mluvčí |
cs |
dc.subject |
Tacotron 2 |
cs |
dc.subject |
WaveGlow |
cs |
dc.subject |
speech synthesis |
en |
dc.subject |
neural networks |
en |
dc.subject |
speaker independent speech synthesis |
en |
dc.subject |
Tacotron 2 |
en |
dc.subject |
WaveGlow |
en |
dc.title |
Počítačová syntéza řeči pomocí umělých neuronových sítí |
cs |
dc.title |
Computer speech synthesis using artificial neural networks |
en |
dc.type |
diplomová práce |
cs |
dc.date.updated |
2020-6-30 |
|
dc.degree.level |
Ing. |
|
dc.date.defense |
2020-06-30 |
|
dc.date.committed |
2020-5-18 |
|
local.faculty |
Fakulta mechatroniky, informatiky a mezioborových studií |
cs |
local.department.abbreviation |
ITE |
|
dc.identifier.signature |
V 202002118 |
|
local.identifier.stag |
39998 |
|
local.degree.programme |
Elektrotechnika a informatika |
|
local.degree.discipline |
IT-N |
|
local.faculty.abbreviation |
FM |
|
dc.description.mark |
|
|
local.degree.programmeabbreviation |
N2612 |
|
local.note.administrators |
automat |
|
local.identifier.verbis |
|
|
local.identifier.verbis |
kpw06667687 |
|
local.degree.abbreviation |
Navazující |
|
local.poradovecislo |
2118 |
|
local.identifier.author |
M18000148 |
|
local.note.secrecy |
Povoleno ZverejnitPraci Povoleno ZverejnitPosudky |
|