dc.contributor.advisor	Matějů Lukáš, Ing. Ph.D. :64645	cs
dc.contributor.author	Pokorný, Michal	cs
dc.contributor.referee	Matějka Pavel, Ing. :69492	cs
dc.date.accessioned	2025-07-14T12:43:06Z
dc.date.available	2025-07-14T12:43:06Z
dc.date.committed	9.5.2025	cs
dc.date.defense	10.6.2025	cs
dc.date.issued	2025-06-10	cs
dc.date.submitted	14.10.2024	cs
dc.description.abstract	Tato bakalářská práce se zabývá úlohou detekce řečové aktivity, tedy identifikací časových úseků ve zvukovém signálu, během nichž je přítomna mluvená řeč. Cílem je navrhnout model hlubokého učení pro detekci řeči v reálných datech z misí Apollo poskytnutých ve čtvrté fázi výzvy Fearless Steps Challenge. Práce popisuje proces načtení zvukových dat, převod signálu na MFCC příznaky, rozdělení příznaků do překrývajících se segmentů a další zpracování a přípravu dat pro detekci řečové aktivity pomocí modelů hlubokého učení. Navržené modely jsou trénovány, validovány a testovány na poskytnutých datových sadách. Pro dosažení co nejlepších výsledků bylo porovnáno několik různých architektur, přičemž nejvyšší výkonnosti dosáhl model architektury Conformer. Tento model je následně porovnán s publikovanými výsledky v rámci uvedené výzvy. Přestože trénování bylo ztíženo absencí evaluační datové sady, úspěšnost navrženého modelu se přiblížila k nejlepším publikovaným přístupům.	cs
dc.description.abstract	This bachelor's thesis addresses the task of voice activity detection, which involves identifying time segments within an audio signal during which spoken speech is present. The goal is to design a deep learning model for detecting speech in real-world data from the Apollo missions, provided as part of Phase 4 of the Fearless Steps Challenge. The thesis describes the process of loading the audio data, converting the signal into MFCC features, dividing the features into overlapping segments, and further processing and preparing the data for voice activity detection using deep learning models. The proposed models are trained, validated, and tested on the provided datasets. To achieve the best possible results, several different architectures were compared, with the Conformer architecture achieving the highest performance. This model is then compared with published results from the challenge. Despite the lack of an evaluation dataset complicating the training process, the performance of the proposed model approached that of the best published approaches.	en
dc.format	48	cs
dc.identifier.uri	https://dspace.tul.cz/handle/15240/177312
dc.language.iso	CS	cs
dc.subject	Detekce řečové aktivity	cs
dc.subject	hluboké učení	cs
dc.subject	zpracování zvukového signálu	cs
dc.subject	Conformer	cs
dc.subject	neuronové sítě	cs
dc.subject	Fearless Steps Challenge	cs
dc.title	Fearless Steps Challenge: Detekce řeči v audio nahrávkách z NASA programu Apollo	cs
dc.title	Fearless Steps Challenge: Speech Detection in NASA Apollo Program Audio Recordings	en
dc.type	diplomová práce	cs
local.degree.abbreviation	Bakalářský	cs
local.identifier.author	M22000180	cs
local.identifier.stag	47825	cs

Fearless Steps Challenge: Detekce řeči v audio nahrávkách z NASA programu Apollo

Files

Original bundle

Collections