Automatic real-time transcription of multimedia conference

Abstract
Cílem práce je řešení pro přepis multimediální konference založené na protokolu WebRTC v reálném čase za pomoci kombinace existujících technologií a řešení v oblasti konferencí, přenosu médií a rozpoznávání řeči. Aplikace je naprogramována v Javě. Pro signalizaci se používá protokol WebSocket a pro přenos audio dat protokol RTP. Součástí řešení je modulární transkripční back-end využívající rozhraní Google Cloud Speech-to-text API a řešení pro rozpoznávání řeči vyvinuté v Laboratoři počítačového zpracování řeči (SpeechLab) na Technické univerzitě v Liberci. Přepisy jsou zobrazeny v prohlížečích účastníků v reálném čase a zároveň jsou zapisovány do souboru. Práce obsahuje příklady přepisovaných konverzací.
This work focuses on performing real-time transcription of a multimedia conference based on WebRTC protocol by combining existing technologies and solutions in conferencing, media transmission and speech recognition in one application. The result application is written in Java. It uses WebSocket to communicate with a conferencing application, RTP for receiving audio data and suggests modular transcription back-ends with Google Cloud Speech-to-text API and speech recognition engine developed by the Laboratory of Computer Speech Processing (SpeechLab) in Technical University of Liberec already successfully integrated. Transcripts are stored in files and also can be displayed in browsers in real-time. Examples of transcribed conversations are provided.
Description
Subject(s)
WebRTC, multimediální konference, rozpoznávání řeči v reálném čase, přepis řeči, WebRTC, multimedia conference, real-time speech recognition, transcription
Citation
ISSN
ISBN