Systém pro vizuální protěžbu videonahrávek televizních pořadů

Abstract
Tato bakalářská práce se zabývá návrhem a implementací systému pro automatické protěžování informací z televizních videonahrávek. Systém se zaměřuje na tři hlavní oblasti počítačového vidění: detek- ci střihů pro segmentaci videa, optické rozpoznávání textu (OCR) a detekci a identifikaci osob pomocí obličejů. Pro segmentaci byly porovnány čtyři metody, přičemž nejlepší vý- sledky na vlastním datasetu dosáhl model TransNet V2. V oblasti OCR byly testovány nástroje Tesseract, PaddleOCR a EasyOCR, přičemž nejvyšší přesnosti dosáhl EasyOCR. PaddleOCR byl vy- hodnocen jako méně vhodný zejména kvůli slabé podpoře českého jazyka. Identifikace osob byla realizována pomocí knihovny InsightFace na základě porovnávání detekovaných obličejů s předdefinovanou da- tabází známých osob. Součástí práce byl také fine-tuning modelu YOLO pro účely de- tekce televizních log. Významným výstupem je rovněž sada GUI aplikací pro anotaci dat a testování, jakož i dockerizace celého sys- tému. Webové rozhraní umožňuje nahrání videí, konfiguraci infe- rencí a prohlížení výstupů ve formátu JSON. Výsledný systém integruje více nástrojů a přístupů do ucelené pi- peline pro analýzu televizního obsahu a je připraven pro další roz- šiřování a nasazení.
This bachelor thesis focuses on the design and implementation of a system for automatic extraction of information from television video recordings. The system targets three main areas of compu- ter vision: shot boundary detection for video segmentation, optical character recognition (OCR), and face-based detection and identi- fication of people. Four methods were compared for segmentation, with the best re- sults on a custom dataset achieved by the TransNet V2 model. In the OCR area, Tesseract, PaddleOCR, and EasyOCR tools were tested, with EasyOCR achieving the highest accuracy. PaddleOCR was evaluated as less suitable mainly due to weak support for the Czech language. Person identification was carried out by using the InsightFace library and comparing detected faces with a predefined database of known individuals. The work also included fine-tuning a YOLO model for the purpose of detecting television channel logos. An important outcome of the project is also a set of GUI applications for data annotation and testing, as well as full containerization of the system. A web inter- face allows users to upload videos, configure inference parameters, and view outputs in JSON format. The resulting system integrates multiple tools and approaches into a unified pipeline for the analysis of television content and is ready for further development and deployment.
Description
Subject(s)
datamining, segmentace videa, OCR, detekce obličeje, Python
Citation
ISSN
ISBN