Aplikace pro zpracování účtenek a klasifikaci produktů do COICOP

Abstract
Diplomová práce se zaměřuje na návrh a implementaci systému pro automatizované zpracování účtenek se zaměřením na tři klíčové moduly: optické rozpoznávání znaků, extrakci informací z textu pomocí velkých jazykových modelů a klasifikaci segmentovaných produktů do kategorií Klasifikace individuální spotřeby podle účelu. Náplní teoretické části práce je seznámení s problematikou zpracování účtenek na úrovni statistických úřadů a rešerše zmíněných modulů. V rámci praktické části jsou připraveny datové sady a na nich jsou následně jednotlivé moduly otestovány. V závěru práce je navržena a implementována jednoduchá aplikace pro zpracování účtenek, se zaměřením na efektivní spolupráci uživatele a automatizovaného systému zpracování dat, zejména v případech, kdy selhává plně automatické řešení.
The thesis focuses on the design and implementation of a system for automated receipt processing, emphasizing three key modules: optical character recognition, information extraction from text using large language models, and classification of segmented products into categories of the Classification of Individual Consumption According to Purpose. The theoretical part of the thesis introduces the problem of receipt processing in the context of statistical offices and provides a literature review of the mentioned modules. In the practical part, datasets are prepared and used to test the individual modules. Finally, a simple desktop application for receipt processing is designed and implemented, focusing on effective collaboration between the user and the automated processing system, particularly in situations where fully automated processing fails.
Description
Subject(s)
ČSÚ, OCR, extrakce informací, LLM, GroqCloud, klasifikace textu, CZ-COICOP
Citation
ISSN
ISBN