Detekce řeči a změny mluvčího v online vysílání

dc.contributor
dc.contributor.advisor
dc.contributor.authorMatějů, Lukáš
dc.contributor.otherČerva Petr, Ing. Ph.D. Skolitel : 55712
dc.date.accessioned2020-09-08T02:30:50Z
dc.date.available2020-09-08T02:30:50Z
dc.date.committed2018-7-31
dc.date.defense2020-06-16
dc.date.submitted2014-8-1
dc.date.updated2020-6-18
dc.degree.levelPh.D.
dc.description.abstractDisertační práce je věnována dvěma si blízkým řečovým úlohám a následně jejich použití v online prostředí. Konkrétně se jedná o úlohy detekce řeči a detekce změny mluvčího. Ty jsou často nedílnou součástí systémů pro zpracování řeči (např. pro diarizaci mluvčích nebo rozpoznávání řeči), kde slouží pro předzpracování akustického signálu. Obě úlohy jsou v literatuře velmi aktivním tématem, ale většina existujících prací je směřována primárně na offline využití. Nicméně právě online nasazení je nezbytné pro některé řečové aplikace, které musí fungovat v reálném čase (např. monitorovací systémy).Úvodní část disertační práce je tvořena třemi kapitolami. V té první jsou vysvětleny základní pojmy a následně je nastíněno využití obou úloh. Druhá kapitola je věnována současnému poznání a je doplněna o přehled existujících nástrojů. Poslední kapitola se skládá z motivace a z praktického použití zmíněných úloh v monitorovacích systémech. V závěru úvodní části jsou stanoveny cíle práce.Následující dvě kapitoly jsou věnovány teoretickým základům obou úloh. Představují vybrané přístupy, které jsou buď relevantní pro disertační práci (porovnání výsledků), nebo jsou zaměřené na použití v online prostředí.V další kapitole je předložen finální přístup pro detekci řeči. Postupný návrh tohoto přístupu, společně s experimentálním vyhodnocením, je zde detailně rozebrán. Přístup dosahuje nejlepších výsledků na korpusu QUT-NOISE-TIMIT v podmínkách s nízkým a středním zašuměním. Přístup je také začleněn do monitorovacího systému, kde doplňuje svojí funkcionalitou rozpoznávač řeči.Následující kapitola detailně představuje finální přístup pro detekci změny mluvčího. Ten byl navržen v rámci několika po sobě jdoucích experimentů, které tato kapitola také přibližuje. Výsledky získané na databázi COST278 se blíží výsledkům, kterých dosáhl referenční offline systém, ale předložený přístup jich docílil v online módu a to s nízkou latencí.Výstupy disertační práce jsou shrnuty v závěrečné kapitole.cs
dc.description.abstractThe main focus of this thesis lies on two closely interrelated tasks, speech activity detection and speaker change point detection, and their applications in online processing. These tasks commonly play a crucial role of speech preprocessors utilized in speech-processing applications, such as automatic speech recognition or speaker diarization. While their use in offline systems is extensively covered in literature, the number of published works focusing on online use is limited.This is unfortunate, as many speech-processing applications (e.g., monitoring systems) are required to be run in real time.The thesis begins with a three-chapter opening part, where the first introductory chapter explains the basic concepts and outlines the practical use of both tasks. It is followed by a chapter, which reviews the current state of the art and lists the existing toolkits. That part is concluded by a chapter explaining the motivation behind this work and the practical use in monitoring systems; ultimately, this chapter sets the main goals of this thesis.The next two chapters cover the theoretical background of both tasks. They present selected approaches relevant to this work (e.g., used for result comparisons) or focused on online processing.The following chapter proposes the final speech activity detection approach for online use. Within this chapter, a detailed description of the development of this approach is available as well as its thorough experimental evaluation. This approach yields state-of-the-art results under low- and medium-noise conditions on the standardized QUT-NOISE-TIMIT corpus. It is also integrated into a monitoring system, where it supplements a speech recognition system.The final speaker change point detection approach is proposed in the following chapter. It was designed in a series of consecutive experiments, which are extensively detailed in this chapter. An experimental evaluation of this approach on the COST278 database shows the performance of approaching the offline reference system while operating in online mode with low latency.Finally, the last chapter summarizes all the results of this thesis.en
dc.description.mark
dc.format118 s. (250 000 znaků)
dc.format.extentTabulky ne
dc.identifier.signatureD 202000045
dc.identifier.urihttps://dspace.tul.cz/handle/15240/157583
dc.language.isoan
dc.relation.isbasedon
dc.rightsVysokoškolská závěrečná práce je autorské dílo chráněné dle zákona č. 121/2000 Sb., autorský zákon, ve znění pozdějších předpisů. Je možné pořizovat z něj na své náklady a pro svoji osobní potřebu výpisy, opisy a rozmnoženiny. Jeho využití musí být v souladu s autorským zákonem https://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf a citační etikou https://knihovna.tul.cz/document/26cs
dc.rightsA university thesis is a work protected by the Copyright Act. Extracts, copies and transcripts of the thesis are allowed for personal use only and at one?s own expense. The use of thesis should be in compliance with the Copyright Act. https://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf and the citation ethics https://knihovna.tul.cz/document/26en
dc.rights.urihttps://knihovna.tul.cz/document/26
dc.rights.urihttps://www.mkcr.cz/assets/autorske-pravo/01-3982006.pdf
dc.subjectdetekce řečics
dc.subjectdetekce změny mluvčíhocs
dc.subjecthluboké neuronové sítěcs
dc.subjectonline vysílánícs
dc.subjectvážené konečné stavové převodníkycs
dc.subjectDeep Neural Networksen
dc.subjectOnline Streamsen
dc.subjectSpeech Activity Detectionen
dc.subjectSpeaker Change Point Detectionen
dc.subjectWeighted Finite-State Transducersen
dc.titleDetekce řeči a změny mluvčího v online vysílánícs
dc.titleSpeech Activity and Speaker Change Point Detection for Online Streamsen
dc.typedisertační prácecs
local.degree.abbreviationDoktorský
local.degree.disciplineTK4
local.degree.programmeElektrotechnika a informatika
local.degree.programmeabbreviationP2612
local.department.abbreviationITE
local.facultyFakulta mechatroniky, informatiky a mezioborových studiícs
local.faculty.abbreviationFM
local.identifier.authorM14000005
local.identifier.stag40550
local.identifier.verbis
local.identifier.verbiskpw06667412
local.note.administratorsautomat
local.note.secrecyPovoleno ZverejnitPraci Povoleno ZverejnitPosudky
local.poradovecislo45
Files
Original bundle
Now showing 1 - 4 of 4
Loading...
Thumbnail Image
Name:
matejudissertation.pdf
Size:
7.66 MB
Format:
Adobe Portable Document Format
Description:
VSKP
Loading...
Thumbnail Image
Name:
hodnoceni_skolitele.pdf
Size:
26.84 KB
Format:
Adobe Portable Document Format
Description:
Posudek_vedouciho_VSKP
Loading...
Thumbnail Image
Name:
posudky_final.pdf
Size:
1.75 MB
Format:
Adobe Portable Document Format
Description:
Posudek_oponenta_VSKP
Loading...
Thumbnail Image
Name:
zapis_z_obhajoby_Mateju.pdf
Size:
534.82 KB
Format:
Adobe Portable Document Format
Description:
Prubeh_obhajoby_VSKP
Collections