Využití neuronových sítí pro automatickou fonetickou transkripci
dc.contributor | Kolorenč Jan, Ing. Ph.D. : 66659 | |
dc.contributor.advisor | Červa Petr, Ing. Ph.D. : 55712 | |
dc.contributor.author | Kynych, František | |
dc.contributor.other | Simová Jozefína, doc. Ing. Ph.D. Skolitel : 55316 | |
dc.contributor.other | Málek Jiří, Ing. Ph.D. Konzultant : 61653 | |
dc.contributor.other | Svrček Ján, Ing. Konzultant2 : 66454 | |
dc.date.accessioned | 2018-10-15T11:52:25Z | |
dc.date.available | 2018-10-15T11:52:25Z | |
dc.date.committed | 2018-5-14 | |
dc.date.defense | 2018-6-13 | |
dc.date.submitted | 2017-10-19 | |
dc.date.updated | 2018-10-15 | |
dc.degree.level | Bc. | |
dc.description.abstract | Tato bakalářská práce je zaměřena na automatickou fonetickou transkripci pomocí neuronových sítí. Hlavním cílem bylo využít neuronové sítě a výsledky porovnat s chybovostí dosud používaného systému Baseline pro automatické generování fonetické transkripce. K řešení je použit Sequence-to-Sequence G2P toolkit, který je vyvíjen skupinou CMU Sphinx přímo pro tuto úlohu a dále byl upraven Neural Machine Translation toolkit, ten původně sloužil pro překlad z jednoho jazyka do jiného, ale poskytoval řadu dalších metod, které bylo možné vyzkoušet. Pomocí těchto toolkitů se postupně hledala architektura rekurentní neuronové sítě s nejmenší chybovostí. Výsledky experimentování byly porovnány na stejné sadě dat se systémem Baseline. Hlavním dosaženým výsledkem je menší chybovost tohoto systému, u češtiny se podařilo relativně snížit chybovost o 41,5 %, u angličtiny o 22 % a u švédštiny o 33,5 %. Pomocí nejlepšího modelu byly hledány chyby v české slovní zásobě, používané na ústavu ITE. Našlo se 10 515 potenciálních chyb, které se musely ručně kontrolovat, zhruba u 10 % z nich se jednalo o chyby skutečné. | cs |
dc.description.abstract | This bachelor thesis is focused on automatic phonetic transcription using neural networks. The main goal was to use neural networks and compare the results with the error rate of the Baseline system used to automatically generate phonetic transcription. Sequence-to-Sequence G2P toolkit, that was developed by CMU Sphinx group for this task, is used to solve the problem. Additionally, the Neural Machine Translation toolkit, which is used for translation from one language to another, was modified, because it provides a number of other methods that could be tested. Using these tools, the architecture of the recurrent neural network with the lowest error rate was searched. The experimental results were compared on the same set of data with the Baseline system. The main achieved result is the lower error rate of this system, the error in the Czech was relatively reduced by 41.5 %, by 22 % in English and by 33.5 % in Swedish. Using the best model, mistakes were found in the Czech phonetic dictionary used at the ITE department. There were found 10,515 potential mistakes that had to be manually checked, roughly 10 % of them were real mistakes. | en |
dc.description.mark | ||
dc.format | 56 s. | |
dc.format.extent | Ilustrace, Schémata, Tabulky ROM, Grafy 1 ROM 1 | |
dc.identifier.uri | https://dspace.tul.cz/handle/15240/32198 | |
dc.language.iso | cs | |
dc.relation.isbasedon | begin*arab* renewcommand*labelenumi**[arabic*enumi*]* item Nishant Shukla: Machine Learning with TensorFlow, Manning Publications Company, 2017 item Online kurz Natural Language Processing with Deep Learning, dostupný na http://web.stanford.edu/class/cs224n/syllabus.html end*arab* | |
dc.rights | Vysokoškolská závěrečná práce je autorské dílo chráněné dle zákona č. 121/2000 Sb., autorský zákon, ve znění pozdějších předpisů. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem https://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou https://knihovna.tul.cz/document/26 | cs |
dc.rights | A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act. https://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics https://knihovna.tul.cz/document/26 | en |
dc.rights.uri | https://knihovna.tul.cz/document/26 | |
dc.rights.uri | https://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf | |
dc.subject | automatická fonetická transkripce | cs |
dc.subject | rekurentní neuronové sítě | cs |
dc.subject | Sequence-to-Sequence G2P toolkit | cs |
dc.subject | Neural Machine Translation toolkit | cs |
dc.subject | automatic phonetic transcription | en |
dc.subject | recurrent neural networks | en |
dc.subject | Sequence-to-Sequence G2P toolkit | en |
dc.subject | Neural Machine Translation toolkit | en |
dc.title | Využití neuronových sítí pro automatickou fonetickou transkripci | cs |
dc.title | The use of neural networks for automatic phonetic transcription | en |
dc.title.alternative | cs | |
dc.type | bakalářská práce | cs |
local.degree.abbreviation | Bakalářský | |
local.degree.discipline | IT | |
local.degree.programme | Informační technologie | |
local.degree.programmeabbreviation | B2646 | |
local.department.abbreviation | ITE | |
local.faculty | Fakulta mechatroniky, informatiky a mezioborových studií | cs |
local.faculty.abbreviation | FM | |
local.identifier.author | M15000036 | |
local.identifier.stag | 36932 | |
local.note.administrators | automat |
Files
Original bundle
1 - 4 of 4
Loading...
- Name:
- bakalarska_prace_2018_Frantisek_Kynych.pdf
- Size:
- 586.68 KB
- Format:
- Adobe Portable Document Format
- Description:
- VSKP
Loading...
- Name:
- BP_Frantisek_Kynych_oponent.pdf
- Size:
- 659.29 KB
- Format:
- Adobe Portable Document Format
- Description:
- Posudek_oponenta_VSKP
Loading...
- Name:
- BP_Frantisek_Kynych_vedouci.pdf
- Size:
- 646.5 KB
- Format:
- Adobe Portable Document Format
- Description:
- Posudek_vedouciho_VSKP
Loading...
- Name:
- kynych.pdf
- Size:
- 249.03 KB
- Format:
- Adobe Portable Document Format
- Description:
- Prubeh_obhajoby_VSKP