毕业设计-数据挖掘聚类理论与方法的研究—EM聚类算法的研究,共34页,16047字,附java源代码、开题报告等
主要内容
在人工智能,模式识别,机器学习等领域中,很多的应用都要用到模型的参数估计。即极大似然估计或极大后验似然估计。EM算法,又称期望最大算法,就是作为一种参数估计的方法通常用于存在缺失数据的情况下。核心思想就是根据已有的数据来迭代计算似然函数,使之收敛于某个最优值。在这里,我想要在文中介绍聚类的基础知识,回顾聚类的典型方法,重点介绍了基于模型的聚类方法。然后,文章深入讨论EM算法。实现了基于高斯混合模型的EM算法,并针对一个具体的应用实例的数据集,和FCM,层次方法作了比较,也作为深入研究本文算法的基础。EM算法收敛的优劣很大程度上取决于其初始参数。运用EM算法来实现高斯混合模型的聚类,如何初始化EM参数是一个关键的问题。在毕业设计中,实现EM算法,并将EM算法应用到实际。聚类算法在当今社会应用开始流行,所以希望我的研究能为数据挖掘研究增砖添瓦。
中文摘要
聚类分析是近年来信息产业界非常热门的研究方向, 也是数据挖掘的最主要的功能之一,其主要原因是目前存在大量可以广泛使用的数据,人们迫切需要将这些数据转换成有用的信息和知识加以利用。获取的信息和知识可以广泛用于各种应用,包括商务管理,生产控制,市场分析,工程设计和医学研究分析等。
数据聚类强大的应用性体现在很多方面。医学上,聚类能帮助分析确定某一病症在同一年龄,不同人群的病发率,以便可以提早向这些高病发率的人们进行提醒,做好预防工作。同时在地球观测数据库中相似地区的确定,汽车保险单持有者的分组,及根据房子的类型、价值和地理位置对一个城市中房屋的分组上聚类也可以发挥作用。聚类也能用于对Web上的文档进行分类,以发现信息。因此聚类的理论与方法已成为大势所趋。EM算法是目前应用最广泛的高斯模型聚类算法,包括语音识别,图像处理,市场分析,工程设计和科学探索等。
文章第一章介绍数据挖掘及其发展应用,第二章介绍聚类的主要算法和发展现状,第三章介绍聚类算法中的EM算法,介绍它的算法步骤流程及它现在如何应用在实际中,第四章主要介绍聚类系统,是由三种算法对于同一数据集的进行聚类,并对结果进行分析。
关键词: 数据挖掘;聚类分析;EM算法;医学应用
Abstract
Cluster analysis is the study of information industry is very popular in recent years, is also one of the main features of data mining, the main reason is the presence of a large number of widely available data, there is an urgent need to convert these data into useful information and knowledge utilization.
Access to information and knowledge can be widely used in a variety of applications, including business management, production control, market analysis, engineering design and analysis of medical research. Data clustering powerful applications is reflected in many ways. Medicine, analysis of clustering can help determine if a disease at the same age, prevalence in different populations, so that you can advance to remind people of such high prevalence, and prevention. Identified in similar areas of Earth observation data at the same time, car insurance policy holders group, and according to the type, value, and location of the House to a city housing group clustering can also play a role. Clustering can be used to categorize documents on the Web to find information. Clustering has become an inevitable trend of theory and method. EM algorithm for Gaussian model is by far the most widely used cluster algorithms, including speech recognition, image processing, analysis, engineering design and scientific exploration.
Articles first chapter describes data mining and development application, second chapter describes poly class of main algorithm and development status, third chapter describes poly class algorithm in the of EM algorithm, describes it of algorithm steps process and the it now how application in actual in the, fourth chapter main describes poly class system, is by three species algorithm for same data set of for poly class, and on results for analysis.
Key words: Data mining ; Analysis of clustering; EM algorithm; Medical application
目录
第一章 绪论 - 1 -
1.1 研究背景与研究意义 - 1 -
1.2 研究内容及发展现状 - 1 -
1.2.1 本文研究内容 - 1 -
1.2.2 数据挖掘的发展现状 - 2 -
1.3 论文的组织 - 3 -
第二章 聚类理论及算法 - 5 -
2.1 聚类的概念与方法 - 5 -
2.2 聚类挖掘算法 - 5 -
2.2.1 聚类挖掘算法概述 - 5 -
2.2.2 FCM聚类算法介绍 - 5 -
2.2.3层次聚类算法介绍: - 6 -
2.3 聚类算法的应用 - 7 -
2.4 本章小结 - 8 -
第三章 EM算法思想与实现 - 9 -
3.1 EM算法简介 - 9 -
3.2 算法实现 - 9 -
3.2.1开发工具 - 9 -
3.2.2 算法流程 - 10 -
3.3 程序结果及其分析 - 12 -
3.3.1 程序结果展示 - 12 -
3.3.2 程序结果分析 - 14 -
3.4 EM算法的应用 - 15 -
3.5 本章小结 - 16 -
第四章 聚类系统简介 - 17 -
4.1系统功能 - 17 -
4.2 工作平台Weka简介 - 17 -
4.3 三种算法结果对比及实际分析 - 19 -
4.4 算法对比总结 23
4.5 本章小结 24
第五章 结论与展望 25
5.1 本文总结 25
5.2 未来工作展望 25
参考文献 27
致谢 28
本文研究内容
解决“数据丰富、知识贫乏”的问题,发现大量数据中所隐藏的知识,是数据挖掘的主旨。随着数据库和网络技术的广泛应用,加上先进的自动数据生成和采集工具的熟练使用,造成数据仓库中所拥有的数据量突飞猛涨,迫使数据挖掘技术应用的创造和改进发展。本文就是主要研究数据挖掘、聚类分析、聚类算法、EM算法实现、EM、FCM、层次聚类算法对比,通过对同一数据集进行三种不同的聚类算法进行聚类,进而得到不同聚类结果,对结果进行核对和比较,总结三种算法的优势和劣势,在实际应用中应使用何种算法到达最优。EM算法为本文主要研究算法,讨论其产生意义和算法步骤及实现,并实现算法实际应用。
论文的组织
本文所讲的内容主要是数据挖掘聚类算法中的EM算法和聚类系统的介绍。
第一章:绪论,简要介绍了本文的研究背景和数据挖掘研究现状及发展、主要研究内容,总结研究意义,介绍本文的主要工作。
第二章:聚类理论及算法,主要介绍常用的几种聚类算法,着重介绍小组其他成员研究的算法(FCM聚类算法、层次聚类算法),介绍聚类算法的一些实际应用。
第三章:EM算法思想与实现,阐述EM算法中心思想,介绍算法应用,提出改进方向。介绍EM算法的实际应用例子,表述EM算法在实际中的如何使用。
第四章:聚类系统简介,通过Java程序调用Weka中的算法实现对实际用例(乳腺癌病例数据)进行三个算法的聚类结果对比,对结果分析后,比较在实际问题中三个算法不同的优缺点和各自适合的数据集,并对主要影响复发的因素进行分析。
第五章:结论与展望。总结全文构思,对EM算法进行最后总结及改进理想,对聚类系统做出结论,总结其优缺点并针对其缺点确定改进方向,针对开发工具Weka对聚类系统进行一些大胆的改进想法。