毕业设计-数据挖掘聚类理论与方法的研究—层次聚类算法的研究,共31页,14897字,附开题报告、答辩PPT等
主要内容
现在聚类方法在生活中无处不在,和我们的科学研究,数据挖掘有着密切相关的联系。
在论文中,我会介绍一些应用聚类方法的实际生活例子,简单介绍聚类的好处、算法分类等相关知识。在编程方面,我首先会根据层次聚类中AGNES算法和DIANA算法,分析、设计我所要实现的流程、方法及数据结果。利用java语言来编写具体程序,以实现将大量数据层次聚类后的结果分析。然后和同组同学的其他聚类方法进行对比,查看误差。最后,在应用方面,将实现一个在实际生活中会用到聚类方法的简单应用
中文摘要
本文主要研究的是层次聚类算法,实现对数据的聚类,解决实际的问题。在数据挖掘技术中,数据集一般包括大量的数据,所以通过对层次聚类海量数据的研究,解决新问题带来的困难。
本文主要研究的内容是两个方面:
第一个方面:通过在网上查到的IRIS数据集,其数据集中的数据均是有关花卉的信息,根据花卉的特性来判别花卉的种类。对这些花卉数据进行层次聚类、分析。根据编程实现的结果,还会分析此层次聚类方法是否有聚类错误、遗漏的数据,最终得出准确率。最后会与小组中另外两名同学的方法——FCM算法和EM算法,对于实验结果准确率的对比,分析研究这三种聚类方法的优劣及区别,本论文中的层次聚类算法与另外两种聚类方法相比的优势以及适用于何方向。
第二个方面:在创新应用方面,利用在网上查找到的乳腺癌数据,对其进行聚类分析,主要在年龄段,性别等方面进行聚类、分析,根据属性来判断该人员是否复发乳腺癌,以便找到更好的预防、解决伤病的方案。
关键词:数据挖掘;聚类分析;层次聚类
Abstract
This article is the study of hierarchical clustering algorithm and the clustering of data and solve real-world problems. In data mining, data sets typically include a large amount of data, so by hierarchical clustering study of mass data, solve new problems brought about by the difficulties.
Main research contents of this article are two aspects:
The first aspect: through the IRIS data set found on the Internet, the data in a DataSet is information about flowers, distinguishing according to the nature of flowers types of flowers. Hierarchical Clustering, analysis of the data of these flowers. As a result of programming also analyzes this hierarchical clustering method for clustering data for errors, omissions in order to work out exact rate. End up with two other students in the Group--FCM and EM algorithm, comparison of experimental results for accuracy, analysis of the merits and differences between these three types of clustering methods, hierarchical clustering algorithm in this thesis and two other advantages of clustering methods, and applied to what direction.
The second aspect: in terms of innovative applications, found breast cancer data on the Web, to clustering analysis, mainly in the age, gender and other aspects of clustering, analysis, according to the property to determine if the person is suffering from breast cancer, in order to find better, addressing injury prevention programmes.
Keywords:data mining; cluster analysis; hierarchical clustering
目录
第一章 绪论 1
1.1研究背景与研究意义 1
1.2研究内容及论文组织 2
第二章 聚类理论及算法 3
2.1聚类的概念与方法 3
2.2聚类挖掘算法 3
2.2.1聚类策略 3
2.2.2聚类的一般步骤 4
2.2.3聚类中的数据类型 5
2.2.4主要聚类算法 6
2.3聚类的应用 8
2.4本章小结 9
第三章 层次聚类算法思想与实现 10
3.1 层次聚类算法简介 10
3.2算法实现 12
3.2.1开发工具 12
3.2.2算法流程 12
3.3程序结果及其分析 15
3.3.1程序结果展示 15
3.3.2结果的分析 16
3.3.3层次聚类算法的应用 17
3.4本章小结 17
第四章 聚类系统简介 18
4.1 聚类方法的实际应用 18
4.2工作平台WEKA简介 19
4.3三种算法结果对比分析 20
4.4本章小结 23
第五章 结论与展望 24
5.1本文总结 24
5.2未来工作展望 24
致谢 25
参考文献 26
研究内容及论文组织
在论文中,我会从层次聚类方法的介绍、应用、结果分析对比这几个方面进行介绍。
在算法实现方面,首先,对层次聚类的方法有了深入的了解及研究,学习其应用的知识领域。其次,借助层次聚类算法,在MyEclipse上用java语言进行编程。所收集的数据是有关花卉特性的大量信息,比如花瓣的长度、宽度等数据,对其进行聚类分析。最后,得出聚类实验结果,计算此方法的准确率,与另外两种聚类方法进行优劣比较。在实际应用方面,利用层次方法对乳腺癌数据进行聚类。
只有认真学习此算法的步骤,才能更好地运用到生活实际中去。深入研究层次算法,利用编程,实现对一些数据进行的聚类分析,对比最后聚类的结果的意义。
本文主要研究的是层次聚类,一共分为五章:
第一章 绪论:主要包括项目背景及聚类算法现状的介绍。
第二章 聚类理论及算法:主要包括聚类的概念、主要算法以及应用领域等方面的介绍。
第三章 层次聚类算法思想与实现:这章将是本文的重点篇章,会具体详细地介绍层次聚类算法的思想,程序的实现以及对实现结果的分析。
第四章 聚类系统简介:主要包括与小组中FCM算法和EM算法实验结果的对比及分析。
第五章 结论与展望:主要包括对编写论文和编辑程序期间的一个总结,过程中遇到的问题是如何解决的。还有本文需要改进的方面,对层次算法更深一步的研究与应用和对未来发展的一个展望。