Compensation of real-world distortions in speech signals

This habilitation thesis focuses on the compensation of various distortions encountered in real-world speech recordings. The thesis is organized as a collection of articles concerning this problem and published by the author between 2013 and 2022. The manuscripts were created as the output of several consecutive research projects provided by the GAČR and TAČR funding agencies. The articles follow three research topics. The main topic is the extraction of a target speaker from a mixture of several sound sources. The other topic is robust automatic speech recognition. The transcription can be complicated by unwanted sounds in the speech recording or an insufficient amount of suitable training data. Finally, the compensation of nonlinear distortions in acoustic echo cancellation is addressed.
Tato habilitační práce se zabývá kompenzací zkreslení, která se objevují v řečových záznamech pořízených v reálném prostředí. Práce je uspořádána jako sborník článků, které autor k tomuto tématu publikoval mezi lety 2013 - 2022. Jde o články, které vznikaly v rámci navazující série projektů od poskytovatelů GAČR a TAČR. Práci je možné rozdělit do tří základních skupin. Hlavním tématem je odstranění nechtěných zdrojů zvuku od promluv cílového řečníka. Druhým tématem je robustní automatický přepis řečového signálu do textu. Přepis může být opět komplikován nechtěným zvukem na pozadí řeči a také nedostatkem vhodných trénovacích dat. Posledním tématem je kompenzace nelineárních zkreslení se zaměřením na potlačení akustické ozvěny (nonlinear acoustic echo cancellation).
Zlepšování řeči, separace řeči, extrakce cílového řečníka, automatické rozpoznávání řeči, potlačení akustické ozvěny, Speech enhancement, speech separation, extraction of target speaker, automatic speech recognition, acoustic echo cancellation