Hybridní systém pro extrakci řečového signálu na základě informovaného algoritmu FICA
| dc.contributor.advisor | Koldovský Zbyněk, prof. Ing. Ph.D. :56862 | cs |
| dc.contributor.author | Vrbová, Tereza | cs |
| dc.contributor.referee | Kautský Václav, Ing. Ph.D. :69483 | cs |
| dc.date.accessioned | 2025-07-14T12:44:02Z | |
| dc.date.available | 2025-07-14T12:44:02Z | |
| dc.date.committed | 9.5.2025 | cs |
| dc.date.defense | 10.6.2025 | cs |
| dc.date.issued | 2025-06-10 | cs |
| dc.date.submitted | 14.10.2024 | cs |
| dc.description.abstract | Při zpracování řeči z reálného prostředí, například při automatickém přepisu, se objevuje problém zhoršené kvality nahrávek způsobené okolním hlukem nebo přítomností dalších mluvčích. Tato práce se zaměřuje na zlepšení srozumitelnosti cílového mluvčího prostřednictvím jeho extrakce ze směsi řečových signálů. Použitou metodou je slepá extrakce zdroje (BSE), konkrétně analýza nezávislých komponent (ICA), která vychází ze statistické nezávislosti jednotlivých řečových signálů. ICA však může selhat, pokud se zaměří na nesprávného mluvčího. Řešením je využití tzv. pilotujícího signálu, který algoritmus navádí k cílovému mluvčímu. V rámci této práce byl navržen a implementován hybridní systém, který predikuje pilotující signál pomocí konvoluční neuronové sítě. Síť byla trénována na datech s vytvořenými realistickými směsmi řeči, obsahujícími dozvuky simulované impulzní odezvou místnosti. Jako vstupní příznaky byly použity rozdíly fází a intenzit (IPD, ILD), výstupem je časově proměnlivý odhad dominance cílového řečníka. Tyto predikované signály byly následně využity jako postranní informace v rámci informované ICA (iFICA), čímž došlo ke zlepšení přesnosti extrakce. Vyhodnocení na testovacích datech ukázalo zvýšení poměru signálu k ruchu (SIR) v extrahovaných nahrávkách, což potvrzuje účinnost navrženého přístupu. Tato práce ukazuje, že využití pilotujících signálů získaných pomocí strojového učení může zvýšit kvalitu extrakce cílového mluvčího ze směsi řečových signálů oproti slepé extrakci. | cs |
| dc.description.abstract | When processing speech from real-world environments, such as in automatic transcription, recording quality can be degraded by ambient noise or the presence of other speakers. This work focuses on improving the intelligibility of the target speaker by extracting their voice from a mixture of speech signals. The method used is Blind Source Extraction (BSE), specifically Independent Component Analysis (ICA), which is based on the statistical independence of individual speech signals. However, ICA can fail if it focuses on the wrong speaker. The solution is to use a so-called pilot signal that guides the algorithm to the target speaker. In this work, a hybrid system that predicts the pilot signal using a Convolutional Neural Network was designed and implemented. The network was trained on created data containing realistic speech mixtures, including reverberations simulated using Room Impulse Response. Phase and level differences (IPD, ILD) were used as input features, and the output is a time-varying estimate of the dominance of the target speaker. These predicted signals were subsequently used as side information in an informed ICA (iFICA), resulting in improved extraction accuracy. Evaluation on test data showed an increase in Signal to Interference Ratio (SIR) in the extracted recordings, confirming the effectiveness of the proposed approach. This work demonstrates that pilot signals predicted by machine learning can improve the quality of target speaker extraction compared to conventional Blind Source Extraction. | en |
| dc.format | 60 | cs |
| dc.identifier.uri | https://dspace.tul.cz/handle/15240/177320 | |
| dc.language.iso | CS | cs |
| dc.subject | slepá extrakce | cs |
| dc.subject | slepá separace | cs |
| dc.subject | analýza nezávislých komponent | cs |
| dc.subject | postranní informace | cs |
| dc.subject | konvoluční neuronové sítě | cs |
| dc.title | Hybridní systém pro extrakci řečového signálu na základě informovaného algoritmu FICA | cs |
| dc.title | Hybrid system for speech extraction based on the Informed FICA algorithm | en |
| dc.type | diplomová práce | cs |
| local.degree.abbreviation | Bakalářský | cs |
| local.identifier.author | M22000195 | cs |
| local.identifier.stag | 47826 | cs |
Files
Original bundle
1 - 4 of 4
Loading...
- Name:
- Vrbova-BP-finalni.pdf
- Size:
- 889.26 KB
- Format:
- Adobe Portable Document Format
- Description:
- VŠKP ( 7.5.2025 13:40 )
Loading...
- Name:
- BP_Tereza Vrbová_vedoucí.pdf
- Size:
- 375.57 KB
- Format:
- Adobe Portable Document Format
- Description:
- Posudek vedoucího VŠKP ( 29.5.2025 8:42 )
Loading...
- Name:
- BP_Tereza Vrbová_oponent.pdf
- Size:
- 909.06 KB
- Format:
- Adobe Portable Document Format
- Description:
- Posudek oponenta VŠKP ( 2.6.2025 13:06 )
Loading...
- Name:
- ProtokolSPrubehemObhajobySTAG.pdf
- Size:
- 39.16 KB
- Format:
- Adobe Portable Document Format
- Description:
- Průběh obhajoby VŠKP ( 10.6.2025 12:52 )