dc.contributor.author	Kynych, František	cs
dc.contributor.other	Červa Petr, doc. Ing. Ph.D. :55712	cs
dc.date.accessioned	2025-10-20T12:12:05Z
dc.date.available	2025-10-20T12:12:05Z
dc.date.committed	2024-10-05	cs
dc.date.defense	2025-10-06	cs
dc.date.issued	2025-10-06	cs
dc.date.submitted	2018-09-06	cs
dc.description.abstract	Tato disertační práce se zaměřuje na úlohu online diarizace mluvčích pro zpracování datových streamů. V kontrastu s většinou již existujících prací proto klade důraz nejen na přesnost, ale také na výpočetní náročnost jednotlivých vyšetřovaných metod. V rámci práce je nejprve navržena nová odlehčená metoda pro diarizaci streamů obsahujících pouze zvuková data. Ta využívá modifikovanou reziduální síť s bloky squeeze-and-excitation (SE-ResNet-34) pro výpočetně nenáročnou extrakci vektorů mluvčích s využitím vyrovnávací paměti. Tyto vektory následně slouží k detekci hlasové aktivity a blokovému online k-means shlukování s dopředným (look-ahead) mechanismem. Výsledky jsou srovnatelné s referenčním offline systémem, přičemž výhodou je, že navržená metoda vyžaduje pro svůj běh pouze CPU. Zároveň přitom pracuje s nízkým faktorem reálného času pod 0,1 a konstantní latencí o velikosti přibližně 5,5 sekundy. Následující část práce přechází k náročnější a komplexnější úloze online zpracování audiovizuálních datových streamů. Zde je výše uvedené schéma rozšířeno o audio-video modul. Ten využívá model SyncNet ve spojení s vektory, které reprezentující tváře mluvčích, pro sledování identity mluvčích. Výsledný multimodální systém pro diarizaci mluvčích pak kombinuje výstupy z audio a audio-video modulu prostřednictvím nové fúzní strategie, která je založená na časovém překrývání. Chybovost diarizace dosažená takto navrženým systémem odpovídá chybovosti současných moderních offline audiovizuálních metod. Její klíčovou výhodou je ovšem skutečnost, že umožňuje zpracovávat různé audiovizuální datové streamy, například z internetového nebo televizního vysílání, v reálném čase se stejně malou latencí, jako má výše uvedený samotný audio modul.	cs
dc.description.abstract	This thesis deals with the task of online speaker diarization for stream-wise data processing. Therefore, in contrast to most of the existing works, it considers not only the accuracy but also the computational demands of individual investigated methods. Firstly, a new lightweight approach for SD of pure audio data streams is proposed. It first employs a modified residual network with squeeze-and-excitation blocks (SE-ResNet-34) to extract speaker embeddings in an optimized manner using cached buffers. These embeddings are then employed for voice activity detection and block-online k-means clustering with a look-ahead mechanism. The proposed method achieves performance comparable to an offline reference system while operating in real time on a single CPU core, with a low real-time factor below 0.1 and a constant latency of approximately 5.5 seconds. In the subsequent part of the work, a transition is made towards more demanding and complex online processing of audio-visual data streams. Here, the aforementioned method is extended by incorporating an audio-video module. This module utilizes SyncNet combined with visual embeddings for identity tracking. The resulting multi-modal speaker diarization framework combines the outputs from the audio and audio-video modules using a novel overlap-based fusion strategy. It yields diarization error rates that are competitive with the existing state-of-the-art offline audio-visual methods. It enables the real-time processing of various audio-video streams, such as those from the Internet or TV broadcasts, with the same latency as pure audio streams.	en
dc.format	122 s.	cs
dc.identifier.uri	https://dspace.tul.cz/handle/15240/178295
dc.language.iso	AN	cs
dc.subject	online diarizace mluvčích	cs
dc.subject	zpracování streamovaných dat	cs
dc.subject	multimodální	cs
dc.subject	audiovizuální	cs
dc.subject	hluboké neuronové sítě	cs
dc.title	Online diarizace mluvčích pro zpracování audiovizuálních datových streamů	cs
dc.title	Online Speaker Diarization for Processing of Audio-Visual	en
dc.type	diplomová práce	cs
local.degree.abbreviation	Doktorský	cs
local.identifier.author	M20000031	cs
local.identifier.stag	49241	cs

Online diarizace mluvčích pro zpracování audiovizuálních datových streamů

Files

Original bundle

Collections