Tvorba modelů pro přepis řeči v italštině

dc.contributorKolorenč Jan, Ing. Ph.D. : 66659
dc.contributor.advisorČerva Petr, doc. Ing. Ph.D. : 55712
dc.contributor.authorŠafařík, David
dc.date.accessioned2022-11-04T08:03:56Z
dc.date.available2022-11-04T08:03:56Z
dc.date.committed2022-5-16
dc.date.defense2022-06-14
dc.date.issued2022-06-14
dc.date.submitted2021-10-12
dc.date.updated2022-6-14
dc.degree.levelBc.
dc.description.abstractTato bakalářská práce se zabývá tvorbou modelů pro přepis řeči v italštině. Rešerše této práce se zabývá popisem současného stavu systémů pro automatické rozpoznávání řeči (ASR). Automatické rozpoznávání řeči je nejprve popsáno obecně, následně se popis zaměřuje na modulární architekturu a end-to-end (E2E) architekturu systémů ASR. Následující kapitola je věnována popisu italštiny z obecného, gramatického, ale převážně z fonetického pohledu. Praktická část práce popisuje nejprve vývoj modulárního systému ASR. Postupně je tak popsáno vytvoření jednotlivých dílčích částí modulárního systému (výslovnostní slovník, jazykový model, akustický model). Dále je popsán vývoj E2E systému ASR, který zahrnuje popis shromáždění a úpravy volně dostupných řečových databází pro trénování systému a následně popis tvorby vlastní trénovací databáze k rozšíření trénovací množiny dat. Na konec jsou uvedeny výsledky vyhodnocení vytvořených modelů pro přepis řeči v italštině. Nejlepší vytvořený model dosahuje přesnosti přepisu 87,3 % na nahrávkách z nezávislé ručně anotované testovací databáze. Zároveň je výsledný systém ASR porovnán s komerčním systémem ASR, který je k dispozici v rámci cloudové platformy MS Azure.cs
dc.description.abstractThis bachelor thesis is concerned with the creation of models for speech transcription in the Italian language. The research part of this thesis describes the current state of systems for automatic speech recognition (ASR). It begins with a general description of ASR, after which the modular and end-to-end (E2E) architectures of ASR systems are described. The next chapter describes the Italian language from the general, gramatical but mostly phonemic viewpoint. The practical part of this thesis begins with the description of the ASR modular system. The creation of all the parts needed to create the modular system is described (pronounciation lexicon, language model, acoustic model). Afterwards the development of the E2E ASR system is described which encompasses gathering and modification of free language databases followed by a description of the creation of a speech database for further training of the E2E system. Finally the results of the evaluation of created models are presented. The best created model has an accuracy of transcription of 87.3 % evaluated on an independent set of recordings annotated by hand. The final ASR system is also compared to the commercial ASR system within the cloud framework Microsoft Azure.en
dc.description.mark1-
dc.format52 s.
dc.format.extentTabulky -
dc.identifier.signatureV 202204042
dc.identifier.urihttps://dspace.tul.cz/handle/15240/166155
dc.language.isocs
dc.relation.isbasedonrenewcommandlabelenumi[theenumi] beginarab item Xuedong Huang, Alex Acero, and Hsiao-Wuen Hon. Spoken Language Processing: A Guide to Theory, Algorithm and System Development. Prentice Hall PTR, May 2001. item http://htk.eng.cam.ac.uk endarab
dc.rightsVysokoškolská závěrečná práce je autorské dílo chráněné dle zákona č. 121/2000 Sb., autorský zákon, ve znění pozdějších předpisů. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem https://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou https://knihovna.tul.cz/document/26cs
dc.rightsA university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act. https://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics https://knihovna.tul.cz/document/26en
dc.rights.urihttps://knihovna.tul.cz/document/26
dc.rights.urihttps://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf
dc.subjectautomatické rozpoznávání řečics
dc.subjectskrytý Markovský modelcs
dc.subjectend-to-endcs
dc.subjecthluboké neuronové sítěcs
dc.subjecthluboké učenícs
dc.subjectitalštinacs
dc.subjectjazykové modelovánícs
dc.subjectakustické modelovánícs
dc.subjectAutomatic Speech Recognitionen
dc.subjecthidden Markov modelen
dc.subjectend-to-enden
dc.subjectdeep neural networksen
dc.subjectdeep learningen
dc.subjectItalianen
dc.subjectlanguage modelen
dc.subjectacoustic modelen
dc.titleTvorba modelů pro přepis řeči v italštiněcs
dc.titleCreation of models for speech transcription in Italianen
dc.typebakalářská prácecs
local.degree.abbreviationBakalářský
local.degree.disciplineIS
local.degree.programmeInformační technologie
local.degree.programmeabbreviationB0613A140005
local.department.abbreviationITE
local.facultyFakulta mechatroniky, informatiky a mezioborových studiícs
local.faculty.abbreviationFM
local.identifier.authorM19000043
local.identifier.stag43174
local.identifier.verbis
local.identifier.verbis7c702723-9e6a-4f40-8873-9c9bdac6c2ad
local.note.administratorsautomat
local.note.secrecyPovoleno ZverejnitPraci Povoleno ZverejnitPosudky
local.poradovecislo4042
Files
Original bundle
Now showing 1 - 4 of 4
Loading...
Thumbnail Image
Name:
Tvorba_modelu_pro_prepis_reci_v_italstine.pdf
Size:
573.62 KB
Format:
Adobe Portable Document Format
Description:
VSKP
Loading...
Thumbnail Image
Name:
BP_David_Safarik_oponent.pdf
Size:
767.84 KB
Format:
Adobe Portable Document Format
Description:
Posudek_oponenta_VSKP
Loading...
Thumbnail Image
Name:
BP_David_Safarik_vedouci.pdf
Size:
511 KB
Format:
Adobe Portable Document Format
Description:
Posudek_vedouciho_VSKP
Loading...
Thumbnail Image
Name:
ProtokolSPrubehemObhajobySTAG.pdf
Size:
31.83 KB
Format:
Adobe Portable Document Format
Description:
Prubeh_obhajoby_VSKP