Fearless Steps Challenge: Detekce řeči v audio nahrávkách z NASA programu Apollo
Loading...
Date
2025-06-10
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
Tato bakalářská práce se zabývá úlohou detekce řečové aktivity, tedy identifikací časových úseků ve zvukovém signálu, během nichž je přítomna mluvená řeč. Cílem je navrhnout model hlubokého učení pro detekci řeči v reálných datech z misí Apollo poskytnutých ve čtvrté fázi výzvy Fearless Steps Challenge. Práce popisuje proces načtení zvukových dat, převod signálu na MFCC příznaky, rozdělení příznaků do překrývajících se segmentů a další zpracování a přípravu dat pro detekci řečové aktivity pomocí modelů hlubokého učení. Navržené modely jsou trénovány, validovány a testovány na poskytnutých datových sadách. Pro dosažení co nejlepších výsledků bylo porovnáno několik různých architektur, přičemž nejvyšší výkonnosti dosáhl model architektury Conformer. Tento model je následně porovnán s publikovanými výsledky v rámci uvedené výzvy. Přestože trénování bylo ztíženo absencí evaluační datové sady, úspěšnost navrženého modelu se přiblížila k nejlepším publikovaným přístupům.
This bachelor's thesis addresses the task of voice activity detection, which involves identifying time segments within an audio signal during which spoken speech is present. The goal is to design a deep learning model for detecting speech in real-world data from the Apollo missions, provided as part of Phase 4 of the Fearless Steps Challenge. The thesis describes the process of loading the audio data, converting the signal into MFCC features, dividing the features into overlapping segments, and further processing and preparing the data for voice activity detection using deep learning models. The proposed models are trained, validated, and tested on the provided datasets. To achieve the best possible results, several different architectures were compared, with the Conformer architecture achieving the highest performance. This model is then compared with published results from the challenge. Despite the lack of an evaluation dataset complicating the training process, the performance of the proposed model approached that of the best published approaches.
This bachelor's thesis addresses the task of voice activity detection, which involves identifying time segments within an audio signal during which spoken speech is present. The goal is to design a deep learning model for detecting speech in real-world data from the Apollo missions, provided as part of Phase 4 of the Fearless Steps Challenge. The thesis describes the process of loading the audio data, converting the signal into MFCC features, dividing the features into overlapping segments, and further processing and preparing the data for voice activity detection using deep learning models. The proposed models are trained, validated, and tested on the provided datasets. To achieve the best possible results, several different architectures were compared, with the Conformer architecture achieving the highest performance. This model is then compared with published results from the challenge. Despite the lack of an evaluation dataset complicating the training process, the performance of the proposed model approached that of the best published approaches.
Description
Subject(s)
Detekce řečové aktivity, hluboké učení, zpracování zvukového signálu, Conformer, neuronové sítě, Fearless Steps Challenge