Počítačová syntéza řeči pomocí umělých neuronových sítí

DSpace Repository

Show simple item record

dc.contributor Kolorenč Jan, Ing. Ph.D. : 66659
dc.contributor.advisor Červa Petr, Ing. Ph.D. : 55712
dc.contributor.author Kynych, František
dc.date.accessioned 2020-09-22T18:57:09Z
dc.date.available 2020-09-22T18:57:09Z
dc.date.submitted 2019-10-9
dc.identifier.uri https://dspace.tul.cz/handle/15240/157758
dc.description.abstract Tato diplomová práce se zabývá syntézou řeči pomocí neuronových sítí. Cílem bylo prozkoumání a ověření současných přístupů využívajících neuronové sítě a pomocí nejlepší architektury natrénování mužského a ženského hlasu. Dále porovnání s komerčními systémy a vytvoření demonstrační webové aplikace.Pro experimenty byly vybrány DeepVoice 3, Tacotron 2 a WaveGlow architektury. Nejsrozumitelnější řeči dosahoval mužský hlas Tacotron 2 a WaveGlow architektury, proto byl vybrán pro porovnání s komerčními systémy. Porovnávání probíhalo prostřednictvím poslechových testů, pro které bylo vytvořeno prostředí v demonstrační webové aplikaci. Hodnocení se zúčastnilo 56 lidí a celkem bylo ohodnoceno 1060 nahrávek od každého systému. Výsledek této diplomové práce byl srovnatelný s komerčně používanými systémy a překonal standardní systém Googlu, který nevyužívá neuronové sítě. Nad rámec zadání byla řešena fonetická transkripce pro dosažení lepší kvality syntetizované řeči a dále byl Tacotron 2 model rozšířen o vektory mluvčího (tzv. X-Vektory), díky kterým se podařilo měnit hlas dle pohlaví osoby přivedeného vektoru. cs
dc.description.abstract This diploma thesis is focused on speech synthesis using neural networks. The goal was to explore current approaches using neural networks and to train male and female voices using the best architecture. Then compare it with commercial systems and create a web demo application.DeepVoice 3, Tacotron 2 and WaveGlow architectures were selected for the experiments. The most intelligible speech was achieved by the male voice of the Tacotron 2 and WaveGlow architecture, so it was chosen for comparison with commercial systems. The comparison was performed through listening tests, for which an environment was created in a demonstration web application. The evaluation was attended by 56 people and a total of 1,060 recordings from each system were evaluated. The result of this diploma thesis was comparable to commercially used systems and surpassed the standard Google system, which does not use neural networks. In addition to the assignment, phonetic transcription was solved to achieve better quality of synthesized speech, and the Tacotron 2 model was extended by speaker vectors (so-called X-Vectors), thanks to which it was possible to change the voice according to the gender of the person of the input vector. en
dc.format 65 s.
dc.format.extent 1
dc.language.iso cs
dc.relation.isbasedon beginarab renewcommandlabelenumi[arabicenumi] itemNOUZA, Jan, ed., KOLDOVSKÝ, Zbyněk, ed. a VÍCH, Robert, ed. Řeč a počítač: principy hlasové komunikace, úlohy, metody a aplikace: sborník článků. Vyd. 1. Liberec: Technická univerzita v Liberci, 2009. 235 s. ISBN 978-80-7372-548-8. itemShen, Jonathan et al. ?Natural TTS Synthesis by Conditioning Wavenet on MEL Spectrogram Predictions, IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) 2018, pp. 4779-4783. itemhttps://heartbeat.fritz.ai/a-2019-guide-to-speech-synthesis-with-deep-learning-630afcafb9dd endarab
dc.rights Vysokoškolská závěrečná práce je autorské dílo chráněné dle zákona č. 121/2000 Sb., autorský zákon, ve znění pozdějších předpisů. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem https://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou https://knihovna.tul.cz/document/26 cs
dc.rights A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act. https://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics https://knihovna.tul.cz/document/26 en
dc.rights.uri https://knihovna.tul.cz/document/26
dc.rights.uri https://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf
dc.subject syntéza řeči cs
dc.subject neuronové sítě cs
dc.subject syntéza řeči pro více mluvčí cs
dc.subject Tacotron 2 cs
dc.subject WaveGlow cs
dc.subject speech synthesis en
dc.subject neural networks en
dc.subject speaker independent speech synthesis en
dc.subject Tacotron 2 en
dc.subject WaveGlow en
dc.title Počítačová syntéza řeči pomocí umělých neuronových sítí cs
dc.title Computer speech synthesis using artificial neural networks en
dc.type diplomová práce cs
dc.date.updated 2020-6-30
dc.degree.level Ing.
dc.date.defense 2020-06-30
dc.date.committed 2020-5-18
local.faculty Fakulta mechatroniky, informatiky a mezioborových studií cs
local.department.abbreviation ITE
dc.identifier.signature V 202002118
local.identifier.stag 39998
local.degree.programme Elektrotechnika a informatika
local.degree.discipline IT-N
local.faculty.abbreviation FM
dc.description.mark
local.degree.programmeabbreviation N2612
local.note.administrators automat
local.identifier.verbis
local.identifier.verbis kpw06667687
local.degree.abbreviation Navazující
local.poradovecislo 2118
local.identifier.author M18000148
local.note.secrecy Povoleno ZverejnitPraci Povoleno ZverejnitPosudky


Files in this item

This item appears in the following Collection(s)

Show simple item record

Search DSpace

Advanced Search

Browse

My Account