Vliv řečníka a přenosového kanálu na systém rozpoznávání řeči

Kuchařová, Michaela

Vliv řečníka a přenosového kanálu na systém rozpoznávání řeči

Title Alternative:Speaker and transmission channel effect on speech recognition system

Files

mgr_20520.pdf(1.6 MB)

opo_20520.pdf(702.79 KB)

ved_20520.pdf(614.22 KB)

obh_20520.pdf(138.64 KB)

Date

2011

Authors

Kuchařová, Michaela

Publisher

Technická Univerzita v Liberci

Abstract

Tato diplomová práce se zabývá závislostí úspěšnosti rozpoznávání mluvené řeči na použitém mikrofonu a částečné též na mluvčím. Cílem práce bylo vytvořit databázi, která by obsahovala nahrávky od různých mluvčích a z různých mikrofonů, které by byly vhodné pro objektivní porovnání daných mikrofonů. Po zjištění, že rozpoznávání řeči je poměrně značně závislé na použitém mikrofonu, jsem vytvořila systém pro rozpoznávání řeči v prostředí HTK (The Hidden Markov Model Toolkit) a otestovala jsem základní metody a různé vstupní parametry tohoto systému. Jako první metoda adaptace byla otestována intuitivní metoda, která přidávala k trénovací sadě nahrávek adaptační data s různou vahou. Poté jsem vyzkoušela několik pokročilejších metod adaptace a ověřovala, jak se po jejich aplikaci změní rozdíl úspěšností mezi nahrávkami z různých mikrofonů. Toto testování proběhlo jak na rozpoznávacím systému v prostředí HTK, tak i na profesionálním systému pro rozpoznávání řeči, který se používá v praxi v několika komerčních aplikacích a byl vyvinut Laboratoří počítačového zpracování řeči na Ústavu informačních technologií a elektroniky, FM TUL. Nejlepší testovaná metoda MLLR (Maximum Likelihood Linear Regression) dosáhla s rozpoznávacím systémem poskytnutým Laboratoří počítačového zpracování řeči průměrné zlepšení úspěšnosti rozpoznávání řeči 2 %. Vzhledem k relativně malému objemu adaptačních dat (jednalo se o v průměru 30 vteřin dlouhou nahrávku, která obsahovala foneticky bohaté věty) je uvedené zlepšení znatelné
This master thesis deals with the dependence of success in speech recognition on a used microphone and partly on a speaker. The aim was to create a database that would contain recordings from different speakers and from different microphones, which would be suitable for objective comparison of the microphones. After finding that speech is significantly dependent on the microphone, I have created a system for speech recognition in the HTK (The Hidden Markov Model Toolkit) and I tested the basic methods and different input parameters of the system. As a first adaptation method, I tested an intuitive method, which added adaptation data (with different weights) to the training set. Then I tested a few more advanced methods of adaptation and investigated how the difference changed between records from different microphones after their application. Testing was done with a recognition system in the HTK, and on the professional system for speech recognition, which is used in several commercial applications and which was developed by the Laboratory of speech processing at the Institute of Information Technology and Electronics at Technical University Liberec. The best tested method was MLLR (Maximum Likelihood Linear Regression). It achieved an average improvement of speech recognition accuracy in range of 2 %. As the amount of the adaptation data was rather small (it was in average 30 seconds long record, which contained phonetically rich sentences), the improvement is good.

Description

katedra: ITE; přílohy: 1x CD; rozsah: 67

Subject(s)

zpracování řeči, rozpoznávání řeči, druhy mikrofonů, adaptace na mluvčího, adaptace na přenosový kanál, speech processing, speech recognition, types of microphones, speaker adaptation, transmission channel adaptation

Item identifier

https://dspace.tul.cz/handle/15240/10904

Collections

Fakulta mechatroniky, informatiky a mezioborových studií

Show full item record