Vliv řečníka a přenosového kanálu na systém rozpoznávání řeči

Title Alternative:Speaker and transmission channel effect on speech recognition system
dc.contributor.advisorNouza, Jan
dc.contributor.authorKuchařová, Michaela
dc.date2011
dc.date.accessioned2015-06-30
dc.date.available2015-06-30
dc.date.committed2011-05-20
dc.date.defense2011-06-22
dc.date.issued2011
dc.date.submitted2010-10-01
dc.degree.levelmgrcs
dc.descriptionkatedra: ITE; přílohy: 1x CD; rozsah: 67cs
dc.description.abstractTato diplomová práce se zabývá závislostí úspěšnosti rozpoznávání mluvené řeči na použitém mikrofonu a částečné též na mluvčím. Cílem práce bylo vytvořit databázi, která by obsahovala nahrávky od různých mluvčích a z různých mikrofonů, které by byly vhodné pro objektivní porovnání daných mikrofonů. Po zjištění, že rozpoznávání řeči je poměrně značně závislé na použitém mikrofonu, jsem vytvořila systém pro rozpoznávání řeči v prostředí HTK (The Hidden Markov Model Toolkit) a otestovala jsem základní metody a různé vstupní parametry tohoto systému. Jako první metoda adaptace byla otestována intuitivní metoda, která přidávala k trénovací sadě nahrávek adaptační data s různou vahou. Poté jsem vyzkoušela několik pokročilejších metod adaptace a ověřovala, jak se po jejich aplikaci změní rozdíl úspěšností mezi nahrávkami z různých mikrofonů. Toto testování proběhlo jak na rozpoznávacím systému v prostředí HTK, tak i na profesionálním systému pro rozpoznávání řeči, který se používá v praxi v několika komerčních aplikacích a byl vyvinut Laboratoří počítačového zpracování řeči na Ústavu informačních technologií a elektroniky, FM TUL. Nejlepší testovaná metoda MLLR (Maximum Likelihood Linear Regression) dosáhla s rozpoznávacím systémem poskytnutým Laboratoří počítačového zpracování řeči průměrné zlepšení úspěšnosti rozpoznávání řeči 2 %. Vzhledem k relativně malému objemu adaptačních dat (jednalo se o v průměru 30 vteřin dlouhou nahrávku, která obsahovala foneticky bohaté věty) je uvedené zlepšení znatelnécs
dc.description.abstractThis master thesis deals with the dependence of success in speech recognition on a used microphone and partly on a speaker. The aim was to create a database that would contain recordings from different speakers and from different microphones, which would be suitable for objective comparison of the microphones. After finding that speech is significantly dependent on the microphone, I have created a system for speech recognition in the HTK (The Hidden Markov Model Toolkit) and I tested the basic methods and different input parameters of the system. As a first adaptation method, I tested an intuitive method, which added adaptation data (with different weights) to the training set. Then I tested a few more advanced methods of adaptation and investigated how the difference changed between records from different microphones after their application. Testing was done with a recognition system in the HTK, and on the professional system for speech recognition, which is used in several commercial applications and which was developed by the Laboratory of speech processing at the Institute of Information Technology and Electronics at Technical University Liberec. The best tested method was MLLR (Maximum Likelihood Linear Regression). It achieved an average improvement of speech recognition accuracy in range of 2 %. As the amount of the adaptation data was rather small (it was in average 30 seconds long record, which contained phonetically rich sentences), the improvement is good.en
dc.formattext
dc.identifier.urihttps://dspace.tul.cz/handle/15240/10904
dc.language.isocs
dc.publisherTechnická Univerzita v Libercics
dc.subjectzpracování řečics
dc.subjectrozpoznávání řečics
dc.subjectdruhy mikrofonůcs
dc.subjectadaptace na mluvčíhocs
dc.subjectadaptace na přenosový kanálcs
dc.subjectspeech processingen
dc.subjectspeech recognitionen
dc.subjecttypes of microphonesen
dc.subjectspeaker adaptationen
dc.subjecttransmission channel adaptationen
dc.subject.verbisinformační technologiecs
dc.titleVliv řečníka a přenosového kanálu na systém rozpoznávání řečics
dc.title.alternativeSpeaker and transmission channel effect on speech recognition systemen
dc.typeThesis
local.departmentITEcs
local.facultyFakulta mechatroniky, informatiky a mezioborových studiícs
local.identifier.stag20520
local.identifier.verbis451953
local.note.administratorsoprava_A
local.verbis.aktualizace2019-10-05 05:59:38cs
local.verbis.studijniprogramITE Elektrotechnika a informatika/Informační technologiecs
Files
Original bundle
Now showing 1 - 4 of 4
Loading...
Thumbnail Image
Name:
mgr_20520.pdf
Size:
1.6 MB
Format:
Adobe Portable Document Format
Description:
kvalifikační práce
Loading...
Thumbnail Image
Name:
opo_20520.pdf
Size:
702.79 KB
Format:
Adobe Portable Document Format
Description:
posudek oponenta
Loading...
Thumbnail Image
Name:
ved_20520.pdf
Size:
614.22 KB
Format:
Adobe Portable Document Format
Description:
posudek vedoucího
Loading...
Thumbnail Image
Name:
obh_20520.pdf
Size:
138.64 KB
Format:
Adobe Portable Document Format
Description:
výsledek obhajoby