Aplikace pro správu PDF dokumentů s využitím OCR technologie

dc.contributor.advisorVitvarová Jana, Ing. Ph.D. :62527cs
dc.contributor.authorGerö, Vojtěchcs
dc.contributor.refereeJukl František, Bc. :69549cs
dc.date.accessioned2025-07-14T12:42:06Z
dc.date.available2025-07-14T12:42:06Z
dc.date.committed9.5.2025cs
dc.date.defense10.6.2025cs
dc.date.issued2025-06-10cs
dc.date.submitted12.10.2024cs
dc.description.abstractTato bakalářská práce se zabývá návrhem a implementací desktopové aplikace určené pro správu PDF dokumentů s využitím technologie optického rozpoznávání znaků (OCR). V rámci práce byly analyzovány dostupné OCR knihovny a cloudové služby s cílem nalézt nejvhodnější řešení pro rozpoznávání českého textu v tištěné i ručně psané podobě. Na základě provedených testů byla nakonec vybrána služba Azure Document Intelligence, která nabízí nejvýhodnější kombinaci přesnosti, rychlosti zpracování a dostupnosti pro účely vyvíjené aplikace. Výsledná aplikace umožňuje uživatelům organizovat, prohledávat a exportovat obsah PDF dokumentů. Podporuje fulltextové vyhledávání jak v jednotlivých dokumentech, tak napříč celým souborovým systémem, přičemž nalezené fráze jsou interaktivně zvýrazněny přímo v dokumentu. Součástí práce je také implementace REST API, které zajišťuje komunikaci s OCR službou a podporuje veškerou správu dokumentů. V závěru jsou uvedeny možnosti dalšího rozvoje aplikace, zahrnující automatizaci zpracování, klasifikaci dokumentů či rozšíření metadat.cs
dc.description.abstractThis bachelor's thesis focuses on the design and implementation of a desktop application intended for managing PDF documents using optical character recognition (OCR) technology. As part of the thesis, available OCR libraries and cloud services were analyzed to identify the most suitable solution for recognizing Czech text in both printed and handwritten form. Based on the conducted tests, Azure Document Intelligence was ultimately chosen, offering the most advantageous combination of accuracy, processing speed, and availability for the needs of the developed application. The resulting application enables users to organize, search, and export the content of PDF documents. It supports full-text search within individual documents as well as across the entire storage, with the found phrases interactively highlighted directly in the document. The thesis also includes the implementation of a REST API that facilitates communication with the OCR service and supports comprehensive document management. The conclusion outlines potential future enhancements of the application, including processing automation, document classification, and custom metadata.en
dc.format53 scs
dc.identifier.urihttps://dspace.tul.cz/handle/15240/177303
dc.language.isoCScs
dc.subjectOCRcs
dc.subjectPDFcs
dc.subjectspráva dokumentůcs
dc.subjectfulltextové vyhledávánícs
dc.subjectAzure Document Intelligencecs
dc.subjectdesktopová aplikacecs
dc.subjectREST APIcs
dc.subjectoptické rozpoznávání znakůcs
dc.subjectzpracování dokumentůcs
dc.titleAplikace pro správu PDF dokumentů s využitím OCR technologiecs
dc.titleApplication for PDF document management using OCR technologyen
dc.typediplomová prácecs
local.degree.abbreviationBakalářskýcs
local.identifier.authorM22000148cs
local.identifier.stag47863cs
Files
Original bundle
Now showing 1 - 4 of 4
Loading...
Thumbnail Image
Name:
Bp_Gero.pdf
Size:
2.71 MB
Format:
Adobe Portable Document Format
Description:
VŠKP ( 8.5.2025 21:52 )
Loading...
Thumbnail Image
Name:
hodnotici-arch-pro-oponenta-bp-dp Gero_tisk.pdf
Size:
323.38 KB
Format:
Adobe Portable Document Format
Description:
Posudek oponenta VŠKP ( 28.5.2025 12:54 )
Loading...
Thumbnail Image
Name:
2025BP-Gero-OCR-posudekVedouciho.pdf
Size:
196.49 KB
Format:
Adobe Portable Document Format
Description:
Posudek vedoucího VŠKP ( 3.6.2025 9:36 )
Loading...
Thumbnail Image
Name:
ProtokolSPrubehemObhajobySTAG.pdf
Size:
39.52 KB
Format:
Adobe Portable Document Format
Description:
Průběh obhajoby VŠKP ( 10.6.2025 21:47 )