Automatické opravy skenovaných historických textů s využitím pravděpodobnostních modelů

Kounovský, Tomáš

Automatické opravy skenovaných historických textů s využitím pravděpodobnostních modelů

Title Alternative:Automatic editing of scanned historical texts based on probabilistic models

Files

dokumentace_BP_tomas_kounovsky.pdf(4.18 MB)

Dipl_28776.pdf(471.83 KB)

Dipl_28776.pdf(632.31 KB)

Dipl_28776.pdf(445.97 KB)

Date

2014

Authors

Kounovský, Tomáš

Publisher

Technická Univerzita v Liberci

Abstract

Tato práce se zabývá problematikou využití OCR pro digitalizaci historických textů, konkrétně plně automatickými post-OCR opravami chyb. Práce se zaměřuje hlavně na využití pravděpodobnostních metod, jako jsou statistiky znakových záměn a pravděpodobnostní jazykové modely. Cílem této práce je vytvoření a zhodnocení postupů a nástrojů, jenž umožní co nejspolehlivěji snížit procento neslovných chyb způsobených digitalizací ročníků 1945 až 1983 deníku Rudé Právo. Výsledkem práce jsou dva systémy, pomocí nichž byly provedeny automatické opravy na výše zmíněných textových dokumentech. První z nich, založen na výpočtu pravděpodobnosti, zvládá opravit až 6,97 % vstupních chyb při spolehlivosti oprav až 83 %. Druhý systém, využívající algoritmus založený na vlastní skórovací metodě, zvládá opravit až 5,7 % vstupních chyb při spolehlivosti oprav až 92 %.

Description

41 s., 2 s. příl. :obr., tab. +CD ROM

Subject(s)

OCR technology, technologie OCR

Item identifier

https://dspace.tul.cz/handle/15240/16743

Collections

Fakulta mechatroniky, informatiky a mezioborových studií

Show full item record