Robustní diarizace mluvčích

Pražák, Jan

Robustní diarizace mluvčích

Title Alternative:Robust speaker diarization

Files

mgr_18320.pdf(742.73 KB)

Date

2013-12-27

Authors

Pražák, Jan

Publisher

Technická Univerzita v Liberci

Abstract

Tato diplomová práce se zabývá tvorbou automatického systému pro rozlišení jednotlivých mluvčích v audio nahrávce (tzv. diarizace mluvčích). Kapitola 1 je úvodem do dané problematiky. Uvádí oblasti využití podobného systému a zmiňuje motivace práce. Kapitola 2 popisuje vybranou teorii z oblasti počítačového zpracování řeči, která byla využita při tvorbě zmíněného systému a která nachází v rozpoznávacích systémech širší uplatnění. Kapitola 3 na tuto teorii nepřímo navazuje a popisuje hojně používané metody již přímo z oblasti diarizace mluvčích. Kapitola 4 pak popisuje návrh systému včetně postupu pro získání nahrávek potřebných pro trénování dílčích modelů, které v systému vystupují. Kapitola 5 popisuje data, která byla k dispozici pro trénování, vývoj a testování systému. Kapitola 6 shrnuje praktickou část tvorby systému od zpracování dat až po jeho implementaci. Kapitola 7 uvádí výsledky testů, které byly systémem dosaženy. Závěrečná kapitola 8 shrnuje celou práci, zmiňuje plánovaná rozšíření systému a jeho plánované praktické využití.
This thesis is focused on the automatic system for differentiate single speakers in audio record creation (speaker diarization). Chapter 1 is the introduction to this problematic. It deals with usage possibilities of systems like this and thesis motivation too. Chapter 2 describes chosen theory from speech processing area which was used in the system creation and which is used in recognition systems widely. Chapter 3 is connected with this theory and describes plentifully used methods from the speaker diarization area. Chapter 4 describes system suggestion including process for getting records which are needed for training (system) models. Chapter 5 describes data which were accessible for system training, development and testing. Chapter 6 summarizes the practical part of system creation until data processing to its implementation. Chapter 7 deals with system tests results. The final chapter 8 summarizes the whole thesis, describes planned system upgrades and its planned practical usage.

Description

katedra: ITE; rozsah: 50 s.

Subject(s)

speaker diarization, broadcast data, telephone records, diarizace mluvčích, zpravodajské pořady, telefonní nahrávky

Item identifier

https://dspace.tul.cz/handle/15240/3129

Collections

Fakulta mechatroniky, informatiky a mezioborových studií

Show full item record