Fearless Steps Challenge: Detekce řeči v audio nahrávkách z NASA programu Apollo

dc.contributor.advisorMatějů Lukáš, Ing. Ph.D. :64645cs
dc.contributor.authorPokorný, Michalcs
dc.contributor.refereeMatějka Pavel, Ing. :69492cs
dc.date.accessioned2025-07-14T12:43:06Z
dc.date.available2025-07-14T12:43:06Z
dc.date.committed9.5.2025cs
dc.date.defense10.6.2025cs
dc.date.issued2025-06-10cs
dc.date.submitted14.10.2024cs
dc.description.abstractTato bakalářská práce se zabývá úlohou detekce řečové aktivity, tedy identifikací časových úseků ve zvukovém signálu, během nichž je přítomna mluvená řeč. Cílem je navrhnout model hlubokého učení pro detekci řeči v reálných datech z misí Apollo poskytnutých ve čtvrté fázi výzvy Fearless Steps Challenge. Práce popisuje proces načtení zvukových dat, převod signálu na MFCC příznaky, rozdělení příznaků do překrývajících se segmentů a další zpracování a přípravu dat pro detekci řečové aktivity pomocí modelů hlubokého učení. Navržené modely jsou trénovány, validovány a testovány na poskytnutých datových sadách. Pro dosažení co nejlepších výsledků bylo porovnáno několik různých architektur, přičemž nejvyšší výkonnosti dosáhl model architektury Conformer. Tento model je následně porovnán s publikovanými výsledky v rámci uvedené výzvy. Přestože trénování bylo ztíženo absencí evaluační datové sady, úspěšnost navrženého modelu se přiblížila k nejlepším publikovaným přístupům.cs
dc.description.abstractThis bachelor's thesis addresses the task of voice activity detection, which involves identifying time segments within an audio signal during which spoken speech is present. The goal is to design a deep learning model for detecting speech in real-world data from the Apollo missions, provided as part of Phase 4 of the Fearless Steps Challenge. The thesis describes the process of loading the audio data, converting the signal into MFCC features, dividing the features into overlapping segments, and further processing and preparing the data for voice activity detection using deep learning models. The proposed models are trained, validated, and tested on the provided datasets. To achieve the best possible results, several different architectures were compared, with the Conformer architecture achieving the highest performance. This model is then compared with published results from the challenge. Despite the lack of an evaluation dataset complicating the training process, the performance of the proposed model approached that of the best published approaches.en
dc.format48cs
dc.identifier.urihttps://dspace.tul.cz/handle/15240/177312
dc.language.isoCScs
dc.subjectDetekce řečové aktivitycs
dc.subjecthluboké učenícs
dc.subjectzpracování zvukového signálucs
dc.subjectConformercs
dc.subjectneuronové sítěcs
dc.subjectFearless Steps Challengecs
dc.titleFearless Steps Challenge: Detekce řeči v audio nahrávkách z NASA programu Apollocs
dc.titleFearless Steps Challenge: Speech Detection in NASA Apollo Program Audio Recordingsen
dc.typediplomová prácecs
local.degree.abbreviationBakalářskýcs
local.identifier.authorM22000180cs
local.identifier.stag47825cs
Files
Original bundle
Now showing 1 - 4 of 4
Loading...
Thumbnail Image
Name:
Bakalářská_práce-Fealess_Steps_Challenge-Michal_Pokorný.pdf
Size:
1.69 MB
Format:
Adobe Portable Document Format
Description:
VŠKP ( 7.5.2025 11:31 )
Loading...
Thumbnail Image
Name:
posudek_mateju_pokorny.pdf
Size:
181.42 KB
Format:
Adobe Portable Document Format
Description:
Posudek vedoucího VŠKP ( 22.5.2025 12:23 )
Loading...
Thumbnail Image
Name:
BP_Michal Pokorný_oponent.pdf
Size:
691.73 KB
Format:
Adobe Portable Document Format
Description:
Posudek oponenta VŠKP ( 4.6.2025 9:21 )
Loading...
Thumbnail Image
Name:
ProtokolSPrubehemObhajobySTAG.pdf
Size:
39.19 KB
Format:
Adobe Portable Document Format
Description:
Průběh obhajoby VŠKP ( 10.6.2025 12:53 )