Online diarizace mluvčích pro zpracování audiovizuálních datových streamů

dc.contributor.authorKynych, Františekcs
dc.contributor.otherČerva Petr, doc. Ing. Ph.D. :55712cs
dc.date.accessioned2025-10-20T12:12:05Z
dc.date.available2025-10-20T12:12:05Z
dc.date.committed2024-10-05cs
dc.date.defense2025-10-06cs
dc.date.issued2025-10-06cs
dc.date.submitted2018-09-06cs
dc.description.abstractTato disertační práce se zaměřuje na úlohu online diarizace mluvčích pro zpracování datových streamů. V kontrastu s většinou již existujících prací proto klade důraz nejen na přesnost, ale také na výpočetní náročnost jednotlivých vyšetřovaných metod. V rámci práce je nejprve navržena nová odlehčená metoda pro diarizaci streamů obsahujících pouze zvuková data. Ta využívá modifikovanou reziduální síť s bloky squeeze-and-excitation (SE-ResNet-34) pro výpočetně nenáročnou extrakci vektorů mluvčích s využitím vyrovnávací paměti. Tyto vektory následně slouží k detekci hlasové aktivity a blokovému online k-means shlukování s dopředným (look-ahead) mechanismem. Výsledky jsou srovnatelné s referenčním offline systémem, přičemž výhodou je, že navržená metoda vyžaduje pro svůj běh pouze CPU. Zároveň přitom pracuje s nízkým faktorem reálného času pod 0,1 a konstantní latencí o velikosti přibližně 5,5 sekundy. Následující část práce přechází k náročnější a komplexnější úloze online zpracování audiovizuálních datových streamů. Zde je výše uvedené schéma rozšířeno o audio-video modul. Ten využívá model SyncNet ve spojení s vektory, které reprezentující tváře mluvčích, pro sledování identity mluvčích. Výsledný multimodální systém pro diarizaci mluvčích pak kombinuje výstupy z audio a audio-video modulu prostřednictvím nové fúzní strategie, která je založená na časovém překrývání. Chybovost diarizace dosažená takto navrženým systémem odpovídá chybovosti současných moderních offline audiovizuálních metod. Její klíčovou výhodou je ovšem skutečnost, že umožňuje zpracovávat různé audiovizuální datové streamy, například z internetového nebo televizního vysílání, v reálném čase se stejně malou latencí, jako má výše uvedený samotný audio modul.cs
dc.description.abstractThis thesis deals with the task of online speaker diarization for stream-wise data processing. Therefore, in contrast to most of the existing works, it considers not only the accuracy but also the computational demands of individual investigated methods. Firstly, a new lightweight approach for SD of pure audio data streams is proposed. It first employs a modified residual network with squeeze-and-excitation blocks (SE-ResNet-34) to extract speaker embeddings in an optimized manner using cached buffers. These embeddings are then employed for voice activity detection and block-online k-means clustering with a look-ahead mechanism. The proposed method achieves performance comparable to an offline reference system while operating in real time on a single CPU core, with a low real-time factor below 0.1 and a constant latency of approximately 5.5 seconds. In the subsequent part of the work, a transition is made towards more demanding and complex online processing of audio-visual data streams. Here, the aforementioned method is extended by incorporating an audio-video module. This module utilizes SyncNet combined with visual embeddings for identity tracking. The resulting multi-modal speaker diarization framework combines the outputs from the audio and audio-video modules using a novel overlap-based fusion strategy. It yields diarization error rates that are competitive with the existing state-of-the-art offline audio-visual methods. It enables the real-time processing of various audio-video streams, such as those from the Internet or TV broadcasts, with the same latency as pure audio streams.en
dc.format122 s.cs
dc.identifier.urihttps://dspace.tul.cz/handle/15240/178295
dc.language.isoANcs
dc.subjectonline diarizace mluvčíchcs
dc.subjectzpracování streamovaných datcs
dc.subjectmultimodálnícs
dc.subjectaudiovizuálnícs
dc.subjecthluboké neuronové sítěcs
dc.titleOnline diarizace mluvčích pro zpracování audiovizuálních datových streamůcs
dc.titleOnline Speaker Diarization for Processing of Audio-Visualen
dc.typediplomová prácecs
local.degree.abbreviationDoktorskýcs
local.identifier.authorM20000031cs
local.identifier.stag49241cs
Files
Original bundle
Now showing 1 - 4 of 4
Loading...
Thumbnail Image
Name:
kynych_dissertation.pdf
Size:
1.67 MB
Format:
Adobe Portable Document Format
Description:
VŠKP ( 21.4.2025 18:57 )
Loading...
Thumbnail Image
Name:
Hodnocení školitele.pdf
Size:
33.74 KB
Format:
Adobe Portable Document Format
Description:
Posudek vedoucího VŠKP ( 16.10.2025 10:31 )
Loading...
Thumbnail Image
Name:
Posudky_FINAL.pdf
Size:
4.13 MB
Format:
Adobe Portable Document Format
Description:
Posudek oponenta VŠKP ( 16.10.2025 10:31 )
Loading...
Thumbnail Image
Name:
Zápis_FINAL.pdf
Size:
1.17 MB
Format:
Adobe Portable Document Format
Description:
Průběh obhajoby VŠKP ( 16.10.2025 10:31 )
Collections