Online diarizace mluvčích pro zpracování audiovizuálních datových streamů
Loading...
Date
2025-10-06
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
Tato disertační práce se zaměřuje na úlohu online diarizace mluvčích pro zpracování datových streamů. V kontrastu s většinou již existujících prací proto klade důraz nejen na přesnost, ale také na výpočetní náročnost jednotlivých vyšetřovaných metod.
V rámci práce je nejprve navržena nová odlehčená metoda pro diarizaci streamů obsahujících pouze zvuková data. Ta využívá modifikovanou reziduální síť s bloky squeeze-and-excitation (SE-ResNet-34) pro výpočetně nenáročnou extrakci vektorů mluvčích s využitím vyrovnávací paměti. Tyto vektory následně slouží k detekci hlasové aktivity a blokovému online k-means shlukování s dopředným (look-ahead) mechanismem. Výsledky jsou srovnatelné s referenčním offline systémem, přičemž výhodou je, že navržená metoda vyžaduje pro svůj běh pouze CPU. Zároveň přitom pracuje s nízkým faktorem reálného času pod 0,1 a konstantní latencí o velikosti přibližně 5,5 sekundy.
Následující část práce přechází k náročnější a komplexnější úloze online zpracování audiovizuálních datových streamů. Zde je výše uvedené schéma rozšířeno o audio-video modul. Ten využívá model SyncNet ve spojení s vektory, které reprezentující tváře mluvčích, pro sledování identity mluvčích.
Výsledný multimodální systém pro diarizaci mluvčích pak kombinuje výstupy z audio a audio-video modulu prostřednictvím nové fúzní strategie, která je založená na časovém překrývání. Chybovost diarizace dosažená takto navrženým systémem odpovídá chybovosti současných moderních offline audiovizuálních metod. Její klíčovou výhodou je ovšem skutečnost, že umožňuje zpracovávat různé audiovizuální datové streamy, například z internetového nebo televizního vysílání, v reálném čase se stejně malou latencí, jako má výše uvedený samotný audio modul.
This thesis deals with the task of online speaker diarization for stream-wise data processing. Therefore, in contrast to most of the existing works, it considers not only the accuracy but also the computational demands of individual investigated methods. Firstly, a new lightweight approach for SD of pure audio data streams is proposed. It first employs a modified residual network with squeeze-and-excitation blocks (SE-ResNet-34) to extract speaker embeddings in an optimized manner using cached buffers. These embeddings are then employed for voice activity detection and block-online k-means clustering with a look-ahead mechanism. The proposed method achieves performance comparable to an offline reference system while operating in real time on a single CPU core, with a low real-time factor below 0.1 and a constant latency of approximately 5.5 seconds. In the subsequent part of the work, a transition is made towards more demanding and complex online processing of audio-visual data streams. Here, the aforementioned method is extended by incorporating an audio-video module. This module utilizes SyncNet combined with visual embeddings for identity tracking. The resulting multi-modal speaker diarization framework combines the outputs from the audio and audio-video modules using a novel overlap-based fusion strategy. It yields diarization error rates that are competitive with the existing state-of-the-art offline audio-visual methods. It enables the real-time processing of various audio-video streams, such as those from the Internet or TV broadcasts, with the same latency as pure audio streams.
This thesis deals with the task of online speaker diarization for stream-wise data processing. Therefore, in contrast to most of the existing works, it considers not only the accuracy but also the computational demands of individual investigated methods. Firstly, a new lightweight approach for SD of pure audio data streams is proposed. It first employs a modified residual network with squeeze-and-excitation blocks (SE-ResNet-34) to extract speaker embeddings in an optimized manner using cached buffers. These embeddings are then employed for voice activity detection and block-online k-means clustering with a look-ahead mechanism. The proposed method achieves performance comparable to an offline reference system while operating in real time on a single CPU core, with a low real-time factor below 0.1 and a constant latency of approximately 5.5 seconds. In the subsequent part of the work, a transition is made towards more demanding and complex online processing of audio-visual data streams. Here, the aforementioned method is extended by incorporating an audio-video module. This module utilizes SyncNet combined with visual embeddings for identity tracking. The resulting multi-modal speaker diarization framework combines the outputs from the audio and audio-video modules using a novel overlap-based fusion strategy. It yields diarization error rates that are competitive with the existing state-of-the-art offline audio-visual methods. It enables the real-time processing of various audio-video streams, such as those from the Internet or TV broadcasts, with the same latency as pure audio streams.
Description
Subject(s)
online diarizace mluvčích, zpracování streamovaných dat, multimodální, audiovizuální, hluboké neuronové sítě