Shluková analýza v data miningových úlohách

Title Alternative:Cluster analyzis in data mining
Práce je příspěvkem ke kolekci vzdělávacích e-learningových materiálů pro předměty, které se věnují data miningovým postupům. Teoretická část shrnuje vybrané problémy shlukové analýzy, která je zásadní pro část data miningových úloh. V práci jsou shrnuté problémy spojené s předzpracováním vstupních kvalitativních i kvantitativních dat pro shlukové algoritmy. Dále jsou analyzované vybrané postupy shlukování a posouzení kvality shlukovacího procesu.Výsledkem práce je výukový program MyCluster pro popsané algoritmy, který studentům umožňuje experimentovat s daty, které si sami interaktivně vytvoří. Použít lze i datové množiny dříve vytvořené. K dispozici jsou metody nejbližšího souseda, nejvzdálenějšího souseda, centroidní metoda a metoda K-means a několik volitelných metrik. Student může sledovat důsledky volby jednotlivých parametrů a lépe pochopit principy sledováním animace shlukovacího procesu. Kvalitu shlukovacího procesu pak ilustruje funkcionál kvality, který lze sledovat v souvislostech několika pokusů v historii pokusů. Aplikace byla v průběhu vývoje testována studenty Technické univerzity v Liberci a na základě jejich doporučení byla upravena do finální podoby. Aplikace MyCluster byla naprogramována pomocí programovacího jazyka C# a je k dispozici účastníkům kurzu Datamining a kurzu Programovací techniky a data mining na e learningovém portálu ALS na TUL.
This thesis is a contribution to a collection of educational e-learning materials for subjects which deals with data mining procedures. The theoretical part summarizes selected problems of the cluster analysis which is essential for part of data mining tasks. This thesis summarizes problems connected with preprocessing of input qualitative and quantitative data for clustering algorithms. Further analyzed are selected clustering techniques and evaluation of the quality of the clustering process.The result of this thesis is a learning program MyCluster for described algorithms which allows the students to experiment with the data that they themselves created. Students can also use sets of data that had been created earlier. In program are available methods like nearest neighbor, farthest neighbor, centroid linkage and K-means method and several chosen metrics. Students can monitor the impact of chosen parameters and better understand the principal of clustering process by monitoring the process with animation. The quality of the clustering process then ilustrates the functional of quality which can be monitored in coherence of several trials in the past trials. During the development of this program the students was allowed to test it and based on their recommendations was made into its final appearance. Application MyCluster was programmed using C# and it is available to all participants of Datamining course and Programming technique and data mining course on e-learning portal of ALS on TUL.