Využití algoritmů dataminingu pro rozpoznávání pojmenovaných entit
Tato práce se zabývá vyhledáváním pojmenovaných entit v textu pomocí dataminingových algoritmů a jejím cílem je navrhnout nástroj, který by tento problém řešil. Součástí práce je rešerše existujících nástrojů a algoritmů, které se danou problematikou zabývají.Dále byl navržen a implementován nástroj, který využívá několik dataminingových algoritmů zároveň a kombinuje tak jejich výhody. Konkrétní algoritmy jsou realizovány pomocí externích knihoven a výsledky vyhledávání jednotlivých algoritmů jsou sloučeny pomocí vlastní navržené metody. Tato metoda bere v potaz předchozí úspěšnost nástrojů a vybírá ze všech výsledků ten nejvíce pravděpodobný. Práce také popisuje vytvoření datového modelu pro naučení nástroje. Pomocí vlastního modelu lze nástroj použít nad libovolnou doménou dat. Celý nástroj je uzpůsobený na vyhledávání entit v českém jazyce. V závěru práce je nástroj na vytvořeném datovém modelu otestován pomocí přesnosti a úplnosti.
This thesis concerns itself with named entity recognition and use of data mining algorithms for this purpose. Its main objective is to design and implement a tool, that solves the problem of named entity recognition. This thesis contains research of existing tools for named entity recognition and research of data mining algorithms.A new tool for named entity recognition was designed and implemented. This tool combines several data mining algorithms and dictionary method and takes advantage of their strong points by merging their results using own designed method. Each algorithm is implemented by external tool. The method for results merging uses previous precision of included tools to determine most probable results. The thesis also covers the topic of creating own training data set. The tool was trained and tested using data set created within the diploma thesis.
Vyhledávání pojmenovaných entit, datamining, dolování dat, strojové učení, extrakce informace, algoritmy dataminingu, morfologická analýza, pojmenovaná entita, Named entity recognition, data mining, machine learning, information extraction, data mining algorithms, morphological analysis, named entity