Hybridní systém pro extrakci řečového signálu na základě informovaného algoritmu FICA

dc.contributor.advisorKoldovský Zbyněk, prof. Ing. Ph.D. :56862cs
dc.contributor.authorVrbová, Terezacs
dc.contributor.refereeKautský Václav, Ing. Ph.D. :69483cs
dc.date.accessioned2025-07-14T12:44:02Z
dc.date.available2025-07-14T12:44:02Z
dc.date.committed9.5.2025cs
dc.date.defense10.6.2025cs
dc.date.issued2025-06-10cs
dc.date.submitted14.10.2024cs
dc.description.abstractPři zpracování řeči z reálného prostředí, například při automatickém přepisu, se objevuje problém zhoršené kvality nahrávek způsobené okolním hlukem nebo přítomností dalších mluvčích. Tato práce se zaměřuje na zlepšení srozumitelnosti cílového mluvčího prostřednictvím jeho extrakce ze směsi řečových signálů. Použitou metodou je slepá extrakce zdroje (BSE), konkrétně analýza nezávislých komponent (ICA), která vychází ze statistické nezávislosti jednotlivých řečových signálů. ICA však může selhat, pokud se zaměří na nesprávného mluvčího. Řešením je využití tzv. pilotujícího signálu, který algoritmus navádí k cílovému mluvčímu. V rámci této práce byl navržen a implementován hybridní systém, který predikuje pilotující signál pomocí konvoluční neuronové sítě. Síť byla trénována na datech s vytvořenými realistickými směsmi řeči, obsahujícími dozvuky simulované impulzní odezvou místnosti. Jako vstupní příznaky byly použity rozdíly fází a intenzit (IPD, ILD), výstupem je časově proměnlivý odhad dominance cílového řečníka. Tyto predikované signály byly následně využity jako postranní informace v rámci informované ICA (iFICA), čímž došlo ke zlepšení přesnosti extrakce. Vyhodnocení na testovacích datech ukázalo zvýšení poměru signálu k ruchu (SIR) v extrahovaných nahrávkách, což potvrzuje účinnost navrženého přístupu. Tato práce ukazuje, že využití pilotujících signálů získaných pomocí strojového učení může zvýšit kvalitu extrakce cílového mluvčího ze směsi řečových signálů oproti slepé extrakci.cs
dc.description.abstractWhen processing speech from real-world environments, such as in automatic transcription, recording quality can be degraded by ambient noise or the presence of other speakers. This work focuses on improving the intelligibility of the target speaker by extracting their voice from a mixture of speech signals. The method used is Blind Source Extraction (BSE), specifically Independent Component Analysis (ICA), which is based on the statistical independence of individual speech signals. However, ICA can fail if it focuses on the wrong speaker. The solution is to use a so-called pilot signal that guides the algorithm to the target speaker. In this work, a hybrid system that predicts the pilot signal using a Convolutional Neural Network was designed and implemented. The network was trained on created data containing realistic speech mixtures, including reverberations simulated using Room Impulse Response. Phase and level differences (IPD, ILD) were used as input features, and the output is a time-varying estimate of the dominance of the target speaker. These predicted signals were subsequently used as side information in an informed ICA (iFICA), resulting in improved extraction accuracy. Evaluation on test data showed an increase in Signal to Interference Ratio (SIR) in the extracted recordings, confirming the effectiveness of the proposed approach. This work demonstrates that pilot signals predicted by machine learning can improve the quality of target speaker extraction compared to conventional Blind Source Extraction.en
dc.format60cs
dc.identifier.urihttps://dspace.tul.cz/handle/15240/177320
dc.language.isoCScs
dc.subjectslepá extrakcecs
dc.subjectslepá separacecs
dc.subjectanalýza nezávislých komponentcs
dc.subjectpostranní informacecs
dc.subjectkonvoluční neuronové sítěcs
dc.titleHybridní systém pro extrakci řečového signálu na základě informovaného algoritmu FICAcs
dc.titleHybrid system for speech extraction based on the Informed FICA algorithmen
dc.typediplomová prácecs
local.degree.abbreviationBakalářskýcs
local.identifier.authorM22000195cs
local.identifier.stag47826cs
Files
Original bundle
Now showing 1 - 4 of 4
Loading...
Thumbnail Image
Name:
Vrbova-BP-finalni.pdf
Size:
889.26 KB
Format:
Adobe Portable Document Format
Description:
VŠKP ( 7.5.2025 13:40 )
Loading...
Thumbnail Image
Name:
BP_Tereza Vrbová_vedoucí.pdf
Size:
375.57 KB
Format:
Adobe Portable Document Format
Description:
Posudek vedoucího VŠKP ( 29.5.2025 8:42 )
Loading...
Thumbnail Image
Name:
BP_Tereza Vrbová_oponent.pdf
Size:
909.06 KB
Format:
Adobe Portable Document Format
Description:
Posudek oponenta VŠKP ( 2.6.2025 13:06 )
Loading...
Thumbnail Image
Name:
ProtokolSPrubehemObhajobySTAG.pdf
Size:
39.16 KB
Format:
Adobe Portable Document Format
Description:
Průběh obhajoby VŠKP ( 10.6.2025 12:52 )