Automatická strukturalizace počítačem přepsaných mluvených dokumentů z multimediálních archivů

Boháč, Marek

Automatická strukturalizace počítačem přepsaných mluvených dokumentů z multimediálních archivů

Files

disertacni_prace_Bohac_2016.pdf(2.47 MB)

hodnoceni_skolitele_Nouza_Bohac.pdf(321.44 KB)

oponentni_posudky_Ing.Bohace.pdf(2.27 MB)

Zapis_obhajoby_DisP_Ing.Bohac.pdf(767.25 KB)

Authors

Boháč, Marek

Publisher

Technická Univerzita v Liberci

Abstract

Tato práce se zaměřuje na řešení komplexního problému jak strukturalizovat (vhodně rozčlenit, textově i foneticky analyzovat a následně upravit) výstup systému pro automatické rozpoznávání řeči tak, aby byl co nejčitelnější pro člověka a zároveň připravený pro efektivní strojové zpracování a vyhledávání. Motivací pro řešení tohoto problému byl výzkumný projekt podporovaný Ministerstvem kultury ČR, jehož cílem bylo přepsat mluvené dokumenty z archivu Českého a Československého rozhlasu a zpřístupnit je pro vyhledávání. Vzhledem k rozsahu archivu (213.000 dokumentů z období 1923 až 2014) bylo nutné navrhnout a zrealizovat takový postup a technologie, které by byly schopny zvládnout nejen obrovské množství dat, ale také specifické problémy související s různou kvalitou záznamů, s přítomností českého i slovenského jazyka v dokumentech, se střídajícími se mluvčími, s prokládáním řeči znělkami, hudebními předěly a písničkami či s hluky na pozadí řeči.
This thesis focuses on solving a complex task how to structure (i.e. appropriately divide, textually and phonetically analyze and subsequently modify) the output of the speech recognition system so it is most readable for human and also prepared for effective machine processing and search. Motivation to solve this task was the research project supported by the Czech Ministry of culture, aimed at transcription of spoken documents contained in the Czech and Czechoslovak radio and to make them available for search. Taking into account the archive size (213,000 documents form the years 1923-2014) it was essential to propose and implement such technologies, that were able to handle not only the waste amount of the data but also some specific issues associated with different acoustic quality of the documents, speaker changes, presence of jingles, music divides and song between the speech segments or with background noise.

Subject(s)

automatická strukturalizace nahrávky, zpřístupnění archivu mluveného slova, rozpoznání řeči, automatic structuralization of recording, making spoken word archive accessible, speech recognition

Item identifier

https://dspace.tul.cz/handle/15240/150819

Collections

Rok 2016

Show full item record