Automatické opravy skenovaných historických textů s využitím pravděpodobnostních modelů

Title Alternative:Automatic editing of scanned historical texts based on probabilistic models
Loading...
Thumbnail Image
Date
2014
Journal Title
Journal ISSN
Volume Title
Publisher
Technická Univerzita v Liberci
Abstract
Tato práce se zabývá problematikou využití OCR pro digitalizaci historických textů, konkrétně plně automatickými post-OCR opravami chyb. Práce se zaměřuje hlavně na využití pravděpodobnostních metod, jako jsou statistiky znakových záměn a pravděpodobnostní jazykové modely. Cílem této práce je vytvoření a zhodnocení postupů a nástrojů, jenž umožní co nejspolehlivěji snížit procento neslovných chyb způsobených digitalizací ročníků 1945 až 1983 deníku Rudé Právo. Výsledkem práce jsou dva systémy, pomocí nichž byly provedeny automatické opravy na výše zmíněných textových dokumentech. První z nich, založen na výpočtu pravděpodobnosti, zvládá opravit až 6,97 % vstupních chyb při spolehlivosti oprav až 83 %. Druhý systém, využívající algoritmus založený na vlastní skórovací metodě, zvládá opravit až 5,7 % vstupních chyb při spolehlivosti oprav až 92 %.
Description
41 s., 2 s. příl. :obr., tab. +CD ROM
Subject(s)
OCR technology, technologie OCR
Citation
ISSN
ISBN