Robustní diarizace mluvčích
Title Alternative:Robust speaker diarization
Loading...
Date
2013-12-27
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Technická Univerzita v Liberci
Abstract
Tato diplomová práce se zabývá tvorbou automatického systému pro rozlišení jednotlivých mluvčích v audio nahrávce (tzv. diarizace mluvčích). Kapitola 1 je úvodem do dané problematiky. Uvádí oblasti využití podobného systému a zmiňuje motivace práce. Kapitola 2 popisuje vybranou teorii z oblasti počítačového zpracování řeči, která byla využita při tvorbě zmíněného systému a která nachází v rozpoznávacích systémech širší uplatnění. Kapitola 3 na tuto teorii nepřímo navazuje a popisuje hojně používané metody již přímo z oblasti diarizace mluvčích. Kapitola 4 pak popisuje návrh systému včetně postupu pro získání nahrávek potřebných pro trénování dílčích modelů, které v systému vystupují. Kapitola 5 popisuje data, která byla k dispozici pro trénování, vývoj a testování systému. Kapitola 6 shrnuje praktickou část tvorby systému od zpracování dat až po jeho implementaci. Kapitola 7 uvádí výsledky testů, které byly systémem dosaženy. Závěrečná kapitola 8 shrnuje celou práci, zmiňuje plánovaná rozšíření systému a jeho plánované praktické využití.
This thesis is focused on the automatic system for differentiate single speakers in audio record creation (speaker diarization). Chapter 1 is the introduction to this problematic. It deals with usage possibilities of systems like this and thesis motivation too. Chapter 2 describes chosen theory from speech processing area which was used in the system creation and which is used in recognition systems widely. Chapter 3 is connected with this theory and describes plentifully used methods from the speaker diarization area. Chapter 4 describes system suggestion including process for getting records which are needed for training (system) models. Chapter 5 describes data which were accessible for system training, development and testing. Chapter 6 summarizes the practical part of system creation until data processing to its implementation. Chapter 7 deals with system tests results. The final chapter 8 summarizes the whole thesis, describes planned system upgrades and its planned practical usage.
This thesis is focused on the automatic system for differentiate single speakers in audio record creation (speaker diarization). Chapter 1 is the introduction to this problematic. It deals with usage possibilities of systems like this and thesis motivation too. Chapter 2 describes chosen theory from speech processing area which was used in the system creation and which is used in recognition systems widely. Chapter 3 is connected with this theory and describes plentifully used methods from the speaker diarization area. Chapter 4 describes system suggestion including process for getting records which are needed for training (system) models. Chapter 5 describes data which were accessible for system training, development and testing. Chapter 6 summarizes the practical part of system creation until data processing to its implementation. Chapter 7 deals with system tests results. The final chapter 8 summarizes the whole thesis, describes planned system upgrades and its planned practical usage.
Description
katedra: ITE; rozsah: 50 s.
Subject(s)
speaker diarization, broadcast data, telephone records, diarizace mluvčích, zpravodajské pořady, telefonní nahrávky