Využití neuronových sítí pro automatickou fonetickou transkripci

Abstract
Tato bakalářská práce je zaměřena na automatickou fonetickou transkripci pomocí neuronových sítí. Hlavním cílem bylo využít neuronové sítě a výsledky porovnat s chybovostí dosud používaného systému Baseline pro automatické generování fonetické transkripce. K řešení je použit Sequence-to-Sequence G2P toolkit, který je vyvíjen skupinou CMU Sphinx přímo pro tuto úlohu a dále byl upraven Neural Machine Translation toolkit, ten původně sloužil pro překlad z jednoho jazyka do jiného, ale poskytoval řadu dalších metod, které bylo možné vyzkoušet. Pomocí těchto toolkitů se postupně hledala architektura rekurentní neuronové sítě s nejmenší chybovostí. Výsledky experimentování byly porovnány na stejné sadě dat se systémem Baseline. Hlavním dosaženým výsledkem je menší chybovost tohoto systému, u češtiny se podařilo relativně snížit chybovost o 41,5 %, u angličtiny o 22 % a u švédštiny o 33,5 %. Pomocí nejlepšího modelu byly hledány chyby v české slovní zásobě, používané na ústavu ITE. Našlo se 10 515 potenciálních chyb, které se musely ručně kontrolovat, zhruba u 10 % z nich se jednalo o chyby skutečné.
This bachelor thesis is focused on automatic phonetic transcription using neural networks. The main goal was to use neural networks and compare the results with the error rate of the Baseline system used to automatically generate phonetic transcription. Sequence-to-Sequence G2P toolkit, that was developed by CMU Sphinx group for this task, is used to solve the problem. Additionally, the Neural Machine Translation toolkit, which is used for translation from one language to another, was modified, because it provides a number of other methods that could be tested. Using these tools, the architecture of the recurrent neural network with the lowest error rate was searched. The experimental results were compared on the same set of data with the Baseline system. The main achieved result is the lower error rate of this system, the error in the Czech was relatively reduced by 41.5 %, by 22 % in English and by 33.5 % in Swedish. Using the best model, mistakes were found in the Czech phonetic dictionary used at the ITE department. There were found 10,515 potential mistakes that had to be manually checked, roughly 10 % of them were real mistakes.
Description
Subject(s)
automatická fonetická transkripce, rekurentní neuronové sítě, Sequence-to-Sequence G2P toolkit, Neural Machine Translation toolkit, automatic phonetic transcription, recurrent neural networks, Sequence-to-Sequence G2P toolkit, Neural Machine Translation toolkit
Citation
ISSN
ISBN