毕业设计-海量交通信息的分布式处理研究—分布式调度算法设计与实现,共47页,20108字,附算法实现代码、测试数据、答辩PPT、任务书、开题报告、相关资料等
主要内容
在Linux平台上运行分布式调度软件
要求完成但并不限于如下功能:
1、与现有算法的对比分析(优缺点),包括对比算法的描述(要求现有先进算法)、试验环境(模拟实验室集群计算机)、所使用的试验数据来源(标准数据库)、分析结果;
2、算法的详细描述,及算法分析;
3、新算法的设计及算法的程序实现;
4、算法的优缺点分析及未来拓展空间;
5、能够独立搭建一个分布式机群系统并能有一定的使用和维护能力(3――5个节点的分布式系统)
摘 要
本论文主要研究的是分布式作业调度的算法,所研究的算法主要适用于大规模分布离散的交通类信息的处理。在Hadoop开源框架下,我们现有算法存在的某些不足,提出了一种基于计算能能力的改进算法。该算法的主要设计思想是:通过继承经典的计算能力算法多队列作业调度模型所具有的稳定性、扩展性、并行性好的优势,在此基础上,我加入了自己提出的作业调度的策略,包括先进先出+短作业策略,紧急抢断策略,作业队列匹配策略和延时调度策略等。我们通过编程和实验成功实现了多种算法在同一环境下的不同性能测试数据,并通过图表的形式展现在论文中,而且实验数据表明,我们所研究的改进算法不仅对于大规模离散分布的交通数据,也可以广泛适用于其他非交通类的计算型数据。
本文主要研究工作和贡献如下:
通过广泛的文献阅读与实际调研,本文首先对 Hadoop 平台的产生的相关背景、平台架构和核心组成部分进行了研究;然后对 Hadoop 平台下的作业调度技术进行了深入的探讨,在详细分析三种现有的作业调度算法-FIFO 算法、公平调度算法(FairScheduler)和计算能力调度算法(Capacity scheduler)的产生背景、算法思想、设计思路和具体实现以及不足之处的基础上,提出了我们的基于计算能力的改进算法,并对该算法如何弥补现有算法的不足、要达到的目标、算法流程、主要组成、设计和实现等进行了详细的介绍;最后对我们的算法进行编程实现和实际验证,实验结果表明我们的算法成功地实现了预期的目标,解决了现有算法的某些不足,并且在性能测试中表现出色。
关键词:Hadoop优化;作业调度算法;分布式计算模型;云计算
目 录
摘 要 2
Abstract 3
目 录 4
第一章 绪 论 6
1.1 引言 6
1.2 课题背景及研究意义 7
1.2.1 课题背景 7
1.2.2 研究意义 7
1.3 发展现状 7
1.4 论文的组织结构 8
第二章 Hadoop平台的研究 9
2.1 云计算介绍 9
2.1.1 云计算的基本概念 9
2.1.2 云计算的特点 9
2.2 Hadoop处理机制和特点 10
2.2.1 什么是Hadoop ? 10
2.2.2 Hadoop特点 10
2.3 Hadoop平台结构与特点 10
2.3.1 结构组成: 10
2.3.2 MapReduce编程模型 11
2.3.3 HDFS文件系统 12
2.3.4 HDFS文件系统特点 13
2.3.5 其他组成部分 14
2.4 本章小结 14
第三章 算法理论设计 16
3.1 Hadoop调度算法概述 16
3.2 Hadoop调度算法的种类 17
3.2.1 FiFO算法 17
3.2.2 公平调度算法 18
3.2.3 公平调度算法环境配置 19
3.2.3 计算机能力调度算法 21
3.2.4 其他调度算法 24
3.3 计算能力调度器与公平调度器对比 24
3.3.1 相同点 24
3.3.2 不同点 24
3.4 本章小结 25
第四章 基于计算能力的改进算法 26
4.1 算法提出背景 26
4.2 基于改进型计算能力算法的设计思想 26
4.2.1 先进先出+短作业优先原则 26
4.2.2 紧急抢断原则 27
4.2.3 队列类型与作业类型匹配原则 28
4.2.4 延时调度原则 29
4.3 基于计算能力的改进算法的具体设计与实现 29
4.3.1 涉及到的变量 29
4.3.2 程序设计类结构 31
4.3.3 环境搭建与配置 32
4.4 Hadoop的优化 33
4.4.1 从应用程序角度进行优化 33
4.4.2 Hadoop 系统参数优化研究 33
4.4.3 Linux 文件系统参数调整 33
4.4.4 Hadoop 通用参数调整 34
4.4.5 Hadoop 作业调优参数 34
4.5 本章小结 35
第五章 实验以及结论分析 36
5.1 实验环境 36
5.2 评估方法 36
5.3 实测数据与比较 37
5.3.1 不同数据规模在不同调度算法下的IO密集型作业执行时间 37
5.3.2 不同数据规模不同调度算法在计算密集型作业下的执行情况 40
5.3.3 优先级对作业运行时间的影响 41
5.4 总结 43
第六章 课题展望与设想 44
致 谢 45
参考文献 46
论文的组织结构
论文的研究工作主要包含以下几个方面:
1、 概述Hadoop发展背景、课题研究意义以及现阶段发展状况。
2、 介绍Hadoop平台、原理以及其各自特点。
3、 介绍了 Hadoop 平台的作业调度模型、分析当前存在的三种的作业调度算
法产生背景、算法思想、设计思路和具体实现以及复合型改进算法。
4、 搭建Hadoop分布式数据处理平台,编程实现并进行数据测试和比较。
5、 总结并得出结论,并对改进算法优劣势进行评估。