您现在正在浏览:首页 > 论文 > 计算机 > 基于Hadoop云平台的分布式支持向量机研究

免费下载基于Hadoop云平台的分布式支持向量机研究

  • 资源类别:论文
  • 资源分类:计算机
  • 适用专业:计算机应用技术
  • 适用年级:研究生
  • 上传用户:晏昭斌
  • 文件格式:caj
  • 文件大小:1.15MB
  • 上传时间:2014/8/9 9:47:54
  • 下载次数:0
  • 浏览次数:0

安全检测:瑞星:安全 诺顿:安全 卡巴:安全

资料简介
硕士学位论文 基于Hadoop云平台的分布式支持向量机研究,共58页。
摘 要
支持向量机(Support Vector Machine, SVM)是 Vapnik 等人提出的一种基于统计学理论的机器学习算法。该算法在建立在统计学习理论的 VC 维理论和最小化结构风险原理的基础上,在解决小样本、非线性以及高维模式识别问题中都表现出了良好的性能。因此,这种新型的机器学习方法越来越受到各个领域的专家和学者们的青睐,日益成为数据挖掘技术中解决分类和回归问题的一个强有力的工具。
然而,随着数据集规模的逐渐增大,SVM 算法在训练过程中寻找全局最优支持向量的过程变的十分缓慢,并且占用大量的计算机软硬件资源,甚至无法在有效的时间和实际环境允许的条件下得到训练模型。
云计算的提出为海量数据挖掘技术的发展带来了曙光。凭借云平台分布式文件系统强大的存储能力,同时将传统的数据挖掘算法进行分布式并行化处理,给海量数据挖掘技术的发展提供了良好的契机。
本文从 Hadoop 云平台的分布式文件系统(HadoopDistributed File System,HDFS)和分布式编程框架 MapReduce 两个方面对当前最流行的开源云计算平台 Hadoop 进行了阐述,同时,对 MapReduce计算框架的内部运行机制进行了深入剖析,并在 Linux 环境下基于 Hadoop-1.0.0 版本搭建了完全分布式的 Hadoop 云平台。
Hadoop 云平台依靠 HDFS 实现了对大规模数据集的分块存储。本文通过读取 hdfs-site.xml 配置文件中的 dfs.block.size 属性,将数据集按照容量大小进行了划分,然后,对分配在 datanode 节点上的每个 block 采用基于 MapReduce 编程框架的并行 SVM 算法进行并行化训练。
传统的支持向量机算法在训练过程中的参数设置主要依赖于经验值的选取。本文在并行 SVM 算法训练过程中,采用了遗传算法对支持向量机的核函数类型、惩罚因子以及核函数参数进行了组合优化。实验结果分析表明,与依赖于经验值进行参数设置的传统 SVM 算法相比,采用遗传算法进行参数组合优化的 SVM 算法的预测精度得到了比较显著的提高。
在 UCI 标准数据集上从训练时间、预测精度等方面对本文所提出的算法的可行性以及表现性能进行了的一系列实验分析,结果表明,并行化的 SVM 算法与传统的 SVM 算法相比,在不显著降低预测精度的前提下,训练时间复杂度得到了比较明显的降低。
同时,本文使用加速比分析了并行算法所需的训练时间与 Hadoop 集群中计算节点数目之间的关系。实验结果分析表明,随着集群中计算节点数目的不断增加,加速比呈现出较快的上升趋势。
【关键词】Hadoop 云平台 海量数据挖掘 遗传算法 支持向量机

目录
1绪论 ................................................................ 1 
1.1 研究背景 ............................................................ 1
1.2 分布式支持向量机的研究现状分析 ..................................... 2
1.3 主要研究内容 ....................................................... 3
1.4 本文组织结构 ....................................................... 4
1.5 本章小结 ............................................................ 4
2云计算平台-Hadoop .............................................. 5 
2.1 Hadoop 技术背景 .................................................... 5
2.2 分布式文件系统-HDFS ................................................. 6
2.3 Hadoop MapReduce 编程框架 .......................................... 7
2.3.1 Hadoop MapReduce 编程框架的原理 .................................. 7
2.3.2 Hadoop MapReduce 编程框架的执行过程 .............................. 7
2.4 本章小结 ............................................................ 8
3支持向量机(SVM) .............................................. 9 
3.1 SVM 概述 ............................................................ 9
3.1.1 线性可分 SVM ..................................................... 9
3.1.2 不完全线性可分 SVM .............................................. 11
3.1.3 非线性 SVM ...................................................... 12
3.2 SVM 多分类 ......................................................... 14
3.2.1 SVM 一对一分类 .................................................. 14
3.2.2 SVM 一类对余类分类 .............................................. 15
3.3 SVM 处理大规模数据的局限性 ........................................ 15
3.4 SVM 参数组合优化 .................................................. 16
3.4.1 遗传算法基本理论 ................................................ 16
3.4.2 使用遗传算法进行 SVM 组合参数优化 ................................ 18
3.5 SVM 参数组合优化实验结果分析 ...................................... 20
3.6 本章小结 ........................................................... 21 
基于 Hadoop 的分布式 SVM ....................................... 23 
4.1 基于 Hadoop 的分布式 SVM 算法描述 ................................... 23
4.1.1 单机 SVM 与分布式 SVM ............................................ 23
4.1.2 自定义 MapReduce 过程 ............................................ 24
4.2 基于 Hadoop 的分布式 SVM 算法的实现 ................................ 25
4.3 本章小结 ........................................................... 27
实验与结果分析 .................................................. 29 
5.1 实验环境搭建 ...................................................... 29
5.1.1 硬件描述 ........................................................ 29
5.1.2 软件描述 ........................................................ 29
5.1.3Hadoop 云平台搭建 ................................................ 29
5.2 实验结果分析 ...................................................... 34
5.2.1 实验数据集简介 .................................................. 34
5.2.2 实验 1 ........................................................... 34
5.2.3 实验 2 ........................................................... 35
5.2.4 实验 3 ........................................................... 36
5.2.5 实验 4 ........................................................... 38
5.3 本章小结 ........................................................... 39
总结与展望 ........................................................ 41 
6.1 总结 .............................................................. 41
6.2 进一步的工作展望 .................................................. 41
致谢 .................................................................... 43 
参考文献 .............................................................. 45 
攻读学位期间参与项目和发表的学术论文 ........................ 49
资料文件预览
共1文件夹,1个文件,文件总大小:1.27MB,压缩后大小:1.15MB
  • 基于Hadoop云平台的分布式支持向量机研究
    • caj基于Hadoop云平台的分布式支持向量机研究_牛科.caj  [1.27MB]
下载地址
资料评论
注意事项
下载FAQ:
Q: 为什么我下载的文件打不开?
A: 本站所有资源如无特殊说明,解压密码都是www.xuehai.net,如果无法解压,请下载最新的WinRAR软件。
Q: 我的学海币不多了,如何获取学海币?
A: 上传优质资源可以获取学海币,详细见学海币规则
Q: 为什么我下载不了,但学海币却被扣了?
A: 由于下载人数众多,下载服务器做了并发的限制。请稍后再试,48小时内多次下载不会重复扣学海币。
下载本文件意味着您已经同意遵守以下协议
1. 文件的所有权益归上传用户所有。
2. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
3. 学海网仅提供交流平台,并不能对任何下载内容负责。
4. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
5. 本站不保证提供的下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
论文相关下载
返回顶部