Automatické opravy skenovaných historických textů s využitím pravděpodobnostních modelů
Title Alternative:Automatic editing of scanned historical texts based on probabilistic models
dc.contributor.advisor | Nouza, Jan | |
dc.contributor.author | Kounovský, Tomáš | |
dc.date | 2014 | |
dc.date.accessioned | 2016-07-26 | |
dc.date.available | 2016-07-26 | |
dc.date.defense | 2014-06-17 | |
dc.date.issued | 2014 | |
dc.degree.level | bc | cs |
dc.description | 41 s., 2 s. příl. :obr., tab. +CD ROM | cs |
dc.description.abstract | Tato práce se zabývá problematikou využití OCR pro digitalizaci historických textů, konkrétně plně automatickými post-OCR opravami chyb. Práce se zaměřuje hlavně na využití pravděpodobnostních metod, jako jsou statistiky znakových záměn a pravděpodobnostní jazykové modely. Cílem této práce je vytvoření a zhodnocení postupů a nástrojů, jenž umožní co nejspolehlivěji snížit procento neslovných chyb způsobených digitalizací ročníků 1945 až 1983 deníku Rudé Právo. Výsledkem práce jsou dva systémy, pomocí nichž byly provedeny automatické opravy na výše zmíněných textových dokumentech. První z nich, založen na výpočtu pravděpodobnosti, zvládá opravit až 6,97 % vstupních chyb při spolehlivosti oprav až 83 %. Druhý systém, využívající algoritmus založený na vlastní skórovací metodě, zvládá opravit až 5,7 % vstupních chyb při spolehlivosti oprav až 92 %. | cs |
dc.format | text | |
dc.identifier.signature | V 13/14 Mb | |
dc.identifier.uri | https://dspace.tul.cz/handle/15240/16743 | |
dc.language.iso | cs | |
dc.publisher | Technická Univerzita v Liberci | cs |
dc.relation.isreferencedby | http://knihovna-opac.tul.cz/diplomovaPrace.php?id_dipl=28776&typ=1 | |
dc.relation.isreferencedby | http://knihovna-opac.tul.cz/diplomovaPrace.php?id_dipl=28776&typ=2 | |
dc.relation.isreferencedby | http://knihovna-opac.tul.cz/diplomovaPrace.php?id_dipl=28776&typ=3 | |
dc.source.uri | http://knihovna-opac.tul.cz/diplomovaPrace.php?id_dipl=28776 | |
dc.subject | OCR technology | en |
dc.subject | technologie OCR | cs |
dc.subject.verbis | OCR technology | en |
dc.title | Automatické opravy skenovaných historických textů s využitím pravděpodobnostních modelů | cs |
dc.title.alternative | Automatic editing of scanned historical texts based on probabilistic models | en |
dc.type | Thesis | |
local.department | ITE | cs |
local.faculty | Fakulta mechatroniky, informatiky a mezioborových studií | cs |
local.identifier.stag | 28776 | |
local.identifier.verbis | 479858 | |
local.note.administrators | oprava_A | |
local.verbis.aktualizace | 2019-10-05 05:52:58 | cs |
local.verbis.studijniprogram | ITE Informační technologie/Informační technologie | cs |
Files
Original bundle
1 - 4 of 4
Loading...
- Name:
- dokumentace_BP_tomas_kounovsky.pdf
- Size:
- 4.18 MB
- Format:
- Adobe Portable Document Format
- Description:
- kvalifikační práce
Loading...
- Name:
- Dipl_28776.pdf
- Size:
- 471.83 KB
- Format:
- Adobe Portable Document Format
- Description:
- posudek oponenta
Loading...
- Name:
- Dipl_28776.pdf
- Size:
- 632.31 KB
- Format:
- Adobe Portable Document Format
- Description:
- posudek vedoucího
Loading...
- Name:
- Dipl_28776.pdf
- Size:
- 445.97 KB
- Format:
- Adobe Portable Document Format
- Description:
- výsledek obhajoby