Počítačová syntéza řeči pomocí umělých neuronových sítí

dc.contributorKolorenč Jan, Ing. Ph.D. : 66659
dc.contributor.advisorČerva Petr, Ing. Ph.D. : 55712
dc.contributor.authorKynych, František
dc.date.accessioned2020-09-22T18:57:09Z
dc.date.available2020-09-22T18:57:09Z
dc.date.committed2020-5-18
dc.date.defense2020-06-30
dc.date.submitted2019-10-9
dc.date.updated2020-6-30
dc.degree.levelIng.
dc.description.abstractTato diplomová práce se zabývá syntézou řeči pomocí neuronových sítí. Cílem bylo prozkoumání a ověření současných přístupů využívajících neuronové sítě a pomocí nejlepší architektury natrénování mužského a ženského hlasu. Dále porovnání s komerčními systémy a vytvoření demonstrační webové aplikace.Pro experimenty byly vybrány DeepVoice 3, Tacotron 2 a WaveGlow architektury. Nejsrozumitelnější řeči dosahoval mužský hlas Tacotron 2 a WaveGlow architektury, proto byl vybrán pro porovnání s komerčními systémy. Porovnávání probíhalo prostřednictvím poslechových testů, pro které bylo vytvořeno prostředí v demonstrační webové aplikaci. Hodnocení se zúčastnilo 56 lidí a celkem bylo ohodnoceno 1060 nahrávek od každého systému. Výsledek této diplomové práce byl srovnatelný s komerčně používanými systémy a překonal standardní systém Googlu, který nevyužívá neuronové sítě. Nad rámec zadání byla řešena fonetická transkripce pro dosažení lepší kvality syntetizované řeči a dále byl Tacotron 2 model rozšířen o vektory mluvčího (tzv. X-Vektory), díky kterým se podařilo měnit hlas dle pohlaví osoby přivedeného vektoru.cs
dc.description.abstractThis diploma thesis is focused on speech synthesis using neural networks. The goal was to explore current approaches using neural networks and to train male and female voices using the best architecture. Then compare it with commercial systems and create a web demo application.DeepVoice 3, Tacotron 2 and WaveGlow architectures were selected for the experiments. The most intelligible speech was achieved by the male voice of the Tacotron 2 and WaveGlow architecture, so it was chosen for comparison with commercial systems. The comparison was performed through listening tests, for which an environment was created in a demonstration web application. The evaluation was attended by 56 people and a total of 1,060 recordings from each system were evaluated. The result of this diploma thesis was comparable to commercially used systems and surpassed the standard Google system, which does not use neural networks. In addition to the assignment, phonetic transcription was solved to achieve better quality of synthesized speech, and the Tacotron 2 model was extended by speaker vectors (so-called X-Vectors), thanks to which it was possible to change the voice according to the gender of the person of the input vector.en
dc.description.mark
dc.format65 s.
dc.format.extent1
dc.identifier.signatureV 202002118
dc.identifier.urihttps://dspace.tul.cz/handle/15240/157758
dc.language.isocs
dc.relation.isbasedonbeginarab renewcommandlabelenumi[arabicenumi] itemNOUZA, Jan, ed., KOLDOVSKÝ, Zbyněk, ed. a VÍCH, Robert, ed. Řeč a počítač: principy hlasové komunikace, úlohy, metody a aplikace: sborník článků. Vyd. 1. Liberec: Technická univerzita v Liberci, 2009. 235 s. ISBN 978-80-7372-548-8. itemShen, Jonathan et al. ?Natural TTS Synthesis by Conditioning Wavenet on MEL Spectrogram Predictions, IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) 2018, pp. 4779-4783. itemhttps://heartbeat.fritz.ai/a-2019-guide-to-speech-synthesis-with-deep-learning-630afcafb9dd endarab
dc.rightsVysokoškolská závěrečná práce je autorské dílo chráněné dle zákona č. 121/2000 Sb., autorský zákon, ve znění pozdějších předpisů. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem https://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou https://knihovna.tul.cz/document/26cs
dc.rightsA university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act. https://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics https://knihovna.tul.cz/document/26en
dc.rights.urihttps://knihovna.tul.cz/document/26
dc.rights.urihttps://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf
dc.subjectsyntéza řečics
dc.subjectneuronové sítěcs
dc.subjectsyntéza řeči pro více mluvčícs
dc.subjectTacotron 2cs
dc.subjectWaveGlowcs
dc.subjectspeech synthesisen
dc.subjectneural networksen
dc.subjectspeaker independent speech synthesisen
dc.subjectTacotron 2en
dc.subjectWaveGlowen
dc.titlePočítačová syntéza řeči pomocí umělých neuronových sítícs
dc.titleComputer speech synthesis using artificial neural networksen
dc.typediplomová prácecs
local.degree.abbreviationNavazující
local.degree.disciplineIT-N
local.degree.programmeElektrotechnika a informatika
local.degree.programmeabbreviationN2612
local.department.abbreviationITE
local.facultyFakulta mechatroniky, informatiky a mezioborových studiícs
local.faculty.abbreviationFM
local.identifier.authorM18000148
local.identifier.stag39998
local.identifier.verbis
local.identifier.verbiskpw06667687
local.note.administratorsautomat
local.note.secrecyPovoleno ZverejnitPraci Povoleno ZverejnitPosudky
local.poradovecislo2118
Files
Original bundle
Now showing 1 - 5 of 5
Loading...
Thumbnail Image
Name:
diplomova_prace_2020_Frantisek_Kynych.pdf
Size:
3.18 MB
Format:
Adobe Portable Document Format
Description:
VSKP
Loading...
Thumbnail Image
Name:
ProtokolSPrubehemObhajobyKynych (8).pdf
Size:
17.58 KB
Format:
Adobe Portable Document Format
Description:
Prubeh_obhajoby_VSKP
Loading...
Thumbnail Image
Name:
DP_František+Kynych_oponent.pdf
Size:
639.58 KB
Format:
Adobe Portable Document Format
Description:
Posudek_oponenta_VSKP
Loading...
Thumbnail Image
Name:
DP_František+Kynych_vedoucí.pdf
Size:
717.09 KB
Format:
Adobe Portable Document Format
Description:
Posudek_vedouciho_VSKP
Loading...
Thumbnail Image
Name:
cd_příloha.zip
Size:
10.13 MB
Format:
Unknown data format
Description:
příloha VŠKP