dc.contributor	Kolorenč Jan, Ing. Ph.D. : 66659
dc.contributor.advisor	Červa Petr, doc. Ing. Ph.D. : 55712
dc.contributor.author	Šafařík, David
dc.date.accessioned	2022-11-04T08:03:56Z
dc.date.available	2022-11-04T08:03:56Z
dc.date.committed	2022-5-16
dc.date.defense	2022-06-14
dc.date.issued	2022-06-14
dc.date.submitted	2021-10-12
dc.date.updated	2022-6-14
dc.degree.level	Bc.
dc.description.abstract	Tato bakalářská práce se zabývá tvorbou modelů pro přepis řeči v italštině. Rešerše této práce se zabývá popisem současného stavu systémů pro automatické rozpoznávání řeči (ASR). Automatické rozpoznávání řeči je nejprve popsáno obecně, následně se popis zaměřuje na modulární architekturu a end-to-end (E2E) architekturu systémů ASR. Následující kapitola je věnována popisu italštiny z obecného, gramatického, ale převážně z fonetického pohledu. Praktická část práce popisuje nejprve vývoj modulárního systému ASR. Postupně je tak popsáno vytvoření jednotlivých dílčích částí modulárního systému (výslovnostní slovník, jazykový model, akustický model). Dále je popsán vývoj E2E systému ASR, který zahrnuje popis shromáždění a úpravy volně dostupných řečových databází pro trénování systému a následně popis tvorby vlastní trénovací databáze k rozšíření trénovací množiny dat. Na konec jsou uvedeny výsledky vyhodnocení vytvořených modelů pro přepis řeči v italštině. Nejlepší vytvořený model dosahuje přesnosti přepisu 87,3 % na nahrávkách z nezávislé ručně anotované testovací databáze. Zároveň je výsledný systém ASR porovnán s komerčním systémem ASR, který je k dispozici v rámci cloudové platformy MS Azure.	cs
dc.description.abstract	This bachelor thesis is concerned with the creation of models for speech transcription in the Italian language. The research part of this thesis describes the current state of systems for automatic speech recognition (ASR). It begins with a general description of ASR, after which the modular and end-to-end (E2E) architectures of ASR systems are described. The next chapter describes the Italian language from the general, gramatical but mostly phonemic viewpoint. The practical part of this thesis begins with the description of the ASR modular system. The creation of all the parts needed to create the modular system is described (pronounciation lexicon, language model, acoustic model). Afterwards the development of the E2E ASR system is described which encompasses gathering and modification of free language databases followed by a description of the creation of a speech database for further training of the E2E system. Finally the results of the evaluation of created models are presented. The best created model has an accuracy of transcription of 87.3 % evaluated on an independent set of recordings annotated by hand. The final ASR system is also compared to the commercial ASR system within the cloud framework Microsoft Azure.	en
dc.description.mark	1-
dc.format	52 s.
dc.format.extent	Tabulky -
dc.identifier.signature	V 202204042
dc.identifier.uri	https://dspace.tul.cz/handle/15240/166155
dc.language.iso	cs
dc.relation.isbasedon	renewcommandlabelenumi[theenumi] beginarab item Xuedong Huang, Alex Acero, and Hsiao-Wuen Hon. Spoken Language Processing: A Guide to Theory, Algorithm and System Development. Prentice Hall PTR, May 2001. item http://htk.eng.cam.ac.uk endarab
dc.rights	Vysokoškolská závěrečná práce je autorské dílo chráněné dle zákona č. 121/2000 Sb., autorský zákon, ve znění pozdějších předpisů. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem https://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou https://knihovna.tul.cz/document/26	cs
dc.rights	A university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act. https://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics https://knihovna.tul.cz/document/26	en
dc.rights.uri	https://knihovna.tul.cz/document/26
dc.rights.uri	https://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf
dc.subject	automatické rozpoznávání řeči	cs
dc.subject	skrytý Markovský model	cs
dc.subject	end-to-end	cs
dc.subject	hluboké neuronové sítě	cs
dc.subject	hluboké učení	cs
dc.subject	italština	cs
dc.subject	jazykové modelování	cs
dc.subject	akustické modelování	cs
dc.subject	Automatic Speech Recognition	en
dc.subject	hidden Markov model	en
dc.subject	end-to-end	en
dc.subject	deep neural networks	en
dc.subject	deep learning	en
dc.subject	Italian	en
dc.subject	language model	en
dc.subject	acoustic model	en
dc.title	Tvorba modelů pro přepis řeči v italštině	cs
dc.title	Creation of models for speech transcription in Italian	en
dc.type	bakalářská práce	cs
local.degree.abbreviation	Bakalářský
local.degree.discipline	IS
local.degree.programme	Informační technologie
local.degree.programmeabbreviation	B0613A140005
local.department.abbreviation	ITE
local.faculty	Fakulta mechatroniky, informatiky a mezioborových studií	cs
local.faculty.abbreviation	FM
local.identifier.author	M19000043
local.identifier.stag	43174
local.identifier.verbis
local.identifier.verbis	7c702723-9e6a-4f40-8873-9c9bdac6c2ad
local.note.administrators	automat
local.note.secrecy	Povoleno ZverejnitPraci Povoleno ZverejnitPosudky
local.poradovecislo	4042

Tvorba modelů pro přepis řeči v italštině

Files

Original bundle

Collections