您现在正在浏览:首页 > 论文 > 计算机 > 毕业设计-数据挖掘聚类理论与方法的研究--FCM聚类算法的研究

免费下载毕业设计-数据挖掘聚类理论与方法的研究--FCM聚类算法的研究

  • 资源类别:论文
  • 资源分类:计算机
  • 适用专业:计算机科学与技术
  • 适用年级:大学
  • 上传用户:yimoerchu
  • 文件格式:word+pdf+ppt
  • 文件大小:338.18KB
  • 上传时间:2013-10-27 1:56:23
  • 下载次数:0
  • 浏览次数:21

安全检测:瑞星:安全 诺顿:安全 卡巴:安全

资料简介

毕业设计-数据挖掘聚类理论与方法的研究--FCM聚类算法的研究,共33页,16381字,附开题报告、答辩PPT等
主要内容
我们小组的主体内容将围绕三个不同类别的聚类算法来进行对比,而我个人关注的是FCM聚类算法。FCM聚类算法采用仍是传统的基于 KNN的FCM(Fuzzy C- Means)聚类算法 ,充分吸取传统的聚类算法的优点 ,同时对它的不足和缺陷进行了很大的改进。不同之处是K不再是固定值 ,而是可以随聚类分布而变化 ,聚类的结果也不再由算法得出。FCM算法是一种基于划分的聚类算法,它的思想就是使得被划分到同一簇的对象之间相似度最大,而不同簇之间的相似度最小。模糊K值算法是普通K值算法的改进,普通K值算法对于数据的划分是硬性的,而FCM则是一种柔性的模糊划分。FCM算法需要两个参数一个是聚类数目K另一个是参数m。一般来讲K远远小于聚类样本的总个数,同时要保证K1。对于m,它是一个控制算法的柔性的参数,如果m过大,则聚类效果会很次,而如果m过小则算法会接近HCM聚类算法。算法的输出是K聚类中心点向量和K*N的一个模糊划分矩阵,这个矩阵表示的是每个样本点属于每个类的隶属度。根据这个划分矩阵按照模糊集合中的最大隶属原则就能够确定每个样本点归为哪个类。聚类中心表示的是每个类的平均特征,可以认为是这个类的代表点。从算法的推导过程中我们不难看出,算法对于满足正态分布的数据聚类效果会很好,另外,算法对孤立点是敏感的。
选择上述的FCM算法是由于在上学期数据挖掘课程中对K均值算法的拓展研究时发现的,这是一个非常优秀的针对硬性K均值算法的改进,具有很强的应用价值。

摘要
随着科学技术的飞速发展,经济和社会都取得了极大的进步,与此同时,在各个领域产生了大量的数据,如何从这些数据中发现有价值的知识及规律,成为目前理论与实践研究的热点与难点,而这也就是数据挖掘存在的意义。
在数据挖掘中,聚类分析是一项极为重要的功能,聚类算法更是目前研究的核心。所谓聚类分析,就是使用聚类算法来生成有意义的聚类,并从聚类结果中得到隐含的、有价值的知识。
聚类算法所包含的诸多类别中,FCM算法,即模糊认知图算法是为了解决实际问题中存在的大部分非硬性划分属性而从经典C均值算法中自然推广出来的一种最具实际意义的算法,也是一种被应用和发展的最广泛的聚类算法。
对FCM算法的研究是极具实际应用价值的。FCM算法被广泛地应用于各种领域,如商务管理、生产控制、市场分析、工程设计、科学探索等。只有对FCM算法进行透彻的研究,才能够了解在诸多实际问题的决策支持中,本算法具有怎样的优势,适合什么类型的数据,又存在什么问题亟待解决。
本文旨在研究数据挖掘聚类算法中的FCM算法,通过对花卉数据的挖掘展示其聚类结果、效率和正确率等,从而更加详细的阐释本算法的优劣之处。此外,本文还例举了实际应用中,FCM算法处理乳腺癌病例数据的结果,分析了本算法在实际应用当中的作用和实效,并同其他两种聚类算法对同一数据集的处理结果做出对比,以期阐释在解决实际问题的过程中,FCM算法存在着什么样的特征、优势,又存在着什么劣势和可以改进之处。
关键词: 数据挖掘;聚类分析;模糊;FCM算法

Abstract
With the rapid development of science and technology, economy and society have made great progress, at the same time, large amounts of data has been exerted in various fields. The problem of how to find the valuable knowledge from these data and rules, has already became the focal point and the difficult point of the research on theories and practices. Absolutely , this is the significance of data mining.
Cluster analysis is a very important function in data mining, and clustering algorithm is the core of the present study. The so-called cluster analysis, is the use of a clustering algorithm to generate meaningful clusters , and get the implied and valuable knowledge from the results of clustering.
Many categories included in the clustering algorithm, the FCM algorithm, known as fuzzy cognitive map algorithm, is made up to solve the practical problems in the presence of most of the non-rigid division of property from the classic C-means algorithm. It is a natural generalization of most practical significance algorithm, also a kind of the application and development of the most widely used clustering algorithm.
The research on FCM algorithm has high practical value. FCM algorithm is widely used in various fields such as business management, production control, market analysis, engineering design, scientific explorations and so on . Only by a total research on FCM algorithm used in the decision support in many practical problems can be able to understand what advantages does it has, and what types of data does it can be used , and finally , what problems in this algorithm need to be solved.
This paper aims at studying on data mining clustering algorithm FCM algorithm, by dealing with the IRIS data, to show the clustering results, efficiency and accuracy rates , which can give a more detailed explanation of the strengths and weaknesses of this algorithm. In addition, examples of practical application, the the FCM algorithm processing the results of the breast cancer cases data analysis of the role and effectiveness of the algorithm in practical application, and processing of dealing with the same data set with other two clustering algorithms on the contrast , to interpretate what kind of characteristics and advantages does it have in the process of solving practical problems, and also the weaknesses and improvements.
Key words: Data mining; Clustering analysis; Fuzzy; FCM algorithm

目录
第一章 绪论 1
1.1 研究背景与研究意义 1
1.1.1数据挖掘 1
1.1.2 聚类分析 2
1.2 研究内容 3
1.3 论文的组织 3
第二章 聚类理论及算法 4
2.1 聚类的概念与方法 4
2.2 聚类挖掘算法 4
2.2.1 聚类挖掘算法综述 4
2.2.2 EM聚类算法介绍 5
2.2.3层次聚类算法介绍: 5
2.3 聚类算法的应用 7
2.4 本章小结 7
第三章 FCM算法思想与实现 8
3.1 FCM算法简介 8
3.1.1 模糊聚类 8
3.1.2 FCM算法 9
3.2 算法实现 11
3.2.1 开发语言和工具 11
3.1.2 算法流程 12
3.3 程序结果及其分析 15
3.3.1 程序结果展示 15
3.3.2 程序结果分析 16
3.4 改进方向 18
3.4.1划分的聚类数目C 18
3.4.2 模糊指数m的选择 18
3.4.3隶属度矩阵的修正 18
3.4.4 算法改进思想 19
3.5 本章小结 19
第四章 聚类系统简介 20
4.1系统功能 20
4.2 工作平台WEKA简介 21
4.2.1 WEKA简介 21
4.2.2 WEKA在聚类系统中的直观展示: 22
4.3 三种算法结果对比分析 24
4.4 本章小结 25
第五章 结论与展望 26
5.1 本文总结 26
5.2 未来工作展望 26
参考文献 27
致谢 28

1.2 研究内容
本文拟在以层层递进的方式对数据挖掘聚类分析中的FCM算法进行研究,通过对花卉数据的处理更加清晰地阐释FCM算法的原理和思想,分析此算法所具有的各种特性和优劣之处。
此外,本文还对实际应用在乳腺癌病例数据挖掘中的FCM算法进行了分析,将本算法与其他两种聚类算法对同一数据集的挖掘结果作出对比,提出了在处理实际问题中FCM算法的优劣和所存在的问题,并最终对整个聚类算法的前景和发展方向做出了展望。
1.3 论文的组织
本文所讲的内容主要数据挖掘聚类算法中的FCM算法。
第一章:绪论,简要介绍了本文的课题背景和当前研究现状及研究内容,给出了研究意义,介绍了本文的主要工作。
:聚类理论及算法,主要概述了当前存在的聚类算法,着重强调小组其他成员研究的算法(EM聚类算法、层次聚类算法),并介绍了聚类算法的具体应用方向。
:FCM算法思想与实现,详细阐释了FCM算法的原理和思想,以其对IRIS数据集的处理作为用例,阐明了FCM算法特性和优劣,使读者能更加深刻地理解FCM算法。同时进行了改进方向的展望。
第四章:聚类系统简介,对比三个算法对乳腺癌病例数据的处理结果,进一步分析在实际问题中三个算法各自具有的优势,以及它们不同的侧重点和存在的问题,来突出FCM算法在实际应用中的特性和需要解决的问题。
第五章:结论与展望。总结全文,提出结论和存在的不足,并对FCM算法以及聚类算法整体的发展方向做出预测和展望。

资料文件预览
共2文件夹,7个文件,文件总大小:759.51KB,压缩后大小:338.18KB
  • 毕业设计-数据挖掘聚类理论与方法的研究--FCM聚类算法的研究
    • 数据挖掘聚类理论与方法的研究--FCM聚类算法的研究
      • Microsoft Powerpoint演示文稿-答辩.ppt  [105.50KB]
      • Microsoft Word文档数据挖掘聚类理论与方法的研究--FCM聚类算法的研究.doc  [631.50KB]
      • Adobe Acrobat可导出文档格式文件中期检查表.pdf  [2.94KB]
      • Adobe Acrobat可导出文档格式文件开题报告.pdf  [5.63KB]
      • Adobe Acrobat可导出文档格式文件成绩单.pdf  [2.42KB]
      • Adobe Acrobat可导出文档格式文件答辩记录单.pdf  [2.43KB]
      • Adobe Acrobat可导出文档格式文件进度报告.pdf  [9.08KB]
下载地址
资料评论
注意事项
下载FAQ:
Q: 为什么我下载的文件打不开?
A: 本站所有资源如无特殊说明,解压密码都是www.xuehai.net,如果无法解压,请下载最新的WinRAR软件。
Q: 我的学海币不多了,如何获取学海币?
A: 上传优质资源可以获取学海币,详细见学海币规则
Q: 为什么我下载不了,但学海币却被扣了?
A: 由于下载人数众多,下载服务器做了并发的限制。请稍后再试,48小时内多次下载不会重复扣学海币。
下载本文件意味着您已经同意遵守以下协议
1. 文件的所有权益归上传用户所有。
2. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
3. 学海网仅提供交流平台,并不能对任何下载内容负责。
4. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
5. 本站不保证提供的下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
返回顶部