Vybrané problémy v přípravě dat pro data miningové úlohy

Abstract
Data mining je v poslední době hojně využívaným nástrojem k získávání nových znalostí z již existujích dat, která donedávna nebylo možné zpracovávat, zejména kvůli nedostatečnému výkonu počítačových systémů. Práce shrnuje data miningový proces, popisuje jednotlivé metodologie a podrobněji je věnována přípravě dat pro data miningový proces. V rámci přípravy dat je velká pozornost věnována kategorizaci a imputaci chybějících hodnot spolu se statistikami, které jsou v řešení těchto problematik využívány. Výsledkem bakalářské práce je aplikace implementující nesupervizovanou a kombinovanou kategorizaci, prostou imputaci dat a vícerozměrnou regresní imputaci.
Data mining is widely used tool for getting new knowledge from existing data, which we were not able to process, because of their high quantity and low computing performance of computing systems, at that time.The Bachelor thesis summarizes the data mining process, describes used methodologies and also describes, in more detail, the preparation of data for the process, such as categorization of numerical data, imputation of the missing data and some of statistics used for these issues resolution.Thesis results in to the application implementing some of described issue resolutions, such as unsupervised, supervised and combined categorization, or simple one-dimensional and multidimensional regressive imputation.
Description
Subject(s)
Data mining, CRISP-DM, příprava dat, kategorizace dat, imputace chybějících hodnot, Data mining, CRISP-DM, Data Preparation, Data Categorization, Imputation of Missing Values
Citation
ISSN
ISBN