Automatické generování interpunkce v systémech rozpoznávání řeči

Abstract
Tato diplomová práce se zabývá úlohou automatického generování interpunkce (automatic punctuation restoration - APR) v systémech pro automatický přepis řeči, které zpracovávají v reálném čase streamovaná data, například titulkují televizní vysílání. Konkrétně bylo cílem práce navrhnout APR modul, který bude do výstupu rozpoznávacího systému doplňovat tečky, čárky a otazníky. Zároveň bude dostatečně rychlý pro režim online zpracování a bude pracovat s co nejmenším zpožděním a to bez využití prosodických příznaků počítaných z řečového signálu. Výsledný navržený APR modul využívá předtrénovaný jazykový model ELECTRA-Small, který je založený na architektuře typu transformer. Experimentální část práce obsahuje porovnání výsledků dosažených použitím několika dalších architektur a vyšetřuje vliv různých hyperparametrů na proces trénování. V poslední části práce je navržený APR modul porovnán s jiným, již existujícím modulem, který používá kombinaci textových a prosodických příznaků. Z výsledků porovnání vyplývá, že APR modul navržený v této diplomové práci zmíněný modul překonává, splňuje všechny požadavky zadání a dosahuje velmi dobrých výsledků, které jsou plně použitelné v praxi. Novost a vlastní přínos této diplomové práce podtrhuje skutečnost, že navržená metoda a dosažené výsledky byly přijaty k publikaci na prestižní mezinárodní konferenci Interspeech 2023.
This thesis deals with the task of automatic punctuation restoration (APR) in automatic speech recognition systems that process real-time streaming data, such as subtitling television broadcasts. Specifically, the goal of this work was to design an APR module that will add periods, commas and question marks to the output of the recognition system. At the same time, it will be fast enough for the online processing mode and work with the least possible delay, without using prosodic features computed from the speech signal. The resulting proposed APR module uses the pre-trained ELECTRA-Small language model, which is based on a transformer-type architecture. The experimental part of the thesis compares the results obtained using several other architectures and investigates the effect of different hyperparameters of the training process. In the last part of the work, the proposed APR module is compared with another existing module that uses a combination of textual and prosodic features. The comparison results show that the APR module proposed in this thesis outperforms the mentioned module, fulfills all the requirements of the assignment and achieves very good results that are fully applicable in practice. The novelty and original contribution of this thesis are underlined by the fact that the proposed method and yielded results were accepted for publication at the prestigious international conference Interspeech 2023.
Description
Subject(s)
automatické generování interpunkce, automatické rozpoznávání řeči, ELECTRA model, transformery
Citation
ISSN
ISBN