您现在正在浏览:首页 > 课件 > 计算机 > 大数据技术基础及应用教程(Linux+Hadoop+Spark)课件(附习题答案)

免费下载大数据技术基础及应用教程(Linux+Hadoop+Spark)课件(附习题答案)

  • 资源类别:课件
  • 资源分类:计算机
  • 适用专业:大数据技术基础
  • 适用年级:大学
  • 上传用户:stanleygc
  • 文件格式:ppt+word
  • 文件大小:15.92MB
  • 上传时间:2022/8/3 7:21:49
  • 下载次数:0
  • 浏览次数:0

安全检测:瑞星:安全 诺顿:安全 卡巴:安全

资料简介
大数据技术基础及应用教程(Linux+Hadoop+Spark)课件
第一篇 技术基础篇
第1章 大数据技术概述2
1.1 大数据的基本概念2
1.1.1 大数据的产生阶段2
1.1.2 大数据的特征2
1.1.3 大数据在各个领域的应用3
1.1.4 大数据的核心技术和计算模式3
1.2 分布式技术与集群4
1.2.1 分布式技术概述4
1.2.2 分布式大数据集群概述4
1.3 大数据技术生态圈7
1.3.1 Linux操作系统7
1.3.2 Hadoop生态系统9
1.3.3 Spark对Hadoop的完善13
本章小结13
本章练习13
第2章 大数据分析技术15
2.1 大数据分析流程及相关技术15
2.1.1 数据采集与预处理15
2.1.2 大数据存储16
2.1.3 大数据分析与挖掘17
2.1.4 数据可视化18
2.2 大数据分析常用方法18
2.2.1 数理统计分析18
2.2.2 聚类分析18
2.2.3 分类分析19
2.2.4 回归分析19
2.3 数据分析基础工具19
2.3.1 数据采集工具—Selenium和PhantomJS19
2.3.2 数据清洗工具—Kettle20
2.3.3 数据存储工具—MongoDB和
MySQL21
2.3.4 机器学习工具—Scikit-learn23
2.3.5 数据可视化工具—Matplotlib、
PyEcharts、Superset23
本章小结25
本章练习26
第二篇 分布式集群篇
第3章 Linux技术基础28
3.1 用户与组管理28
3.1.1 用户管理相关命令28
3.1.2 组管理相关命令29
3.1.3 其他命令29
3.2 文件与目录管理29
3.2.1 常用文件操作命令29
3.2.2 目录操作命令31
3.2.3 改变文件或目录访问权限32
3.2.4 文件备份和压缩33
3.3 进程管理与作业控制33
3.3.1 进程查看34
3.3.2 进程调度34
3.4 磁盘存储管理34
3.4.1 磁盘管理命令35
3.4.2 存取命令35
3.5 系统管理与常用网络命令35
3.5.1 系统管理35
3.5.2 常用网络命令36
3.6 在线帮助系统36
3.7 实践:Linux操作系统的安装与部署37
3.7.1 Linux的安装和卸载37
3.7.2 局域网主机间远程复制文件/
3.7.3 XML文件介绍38
3.7.4 VMware安装及CentOS系统环境准备40
3.7.5 克隆虚拟机48
3.7.6 配置主机名50
3.7.7 配置网络IP地址51
本章小结53
本章练习53
第4章 Hadoop技术基础及构建Hadoop集群55
4.1 Hadoop技术基础55
4.1.1 Hadoop的组成55
4.1.2 Hadoop的运行模式62
4.1.3 HDFS文件的存取63
4.1.4 Hadoop集群的环境配置64
4.1.5 Hadoop集群的搭建65
4.1.6 启动Hadoop集群69
4.2 ZooKeeper技术基础及部署70
4.2.1 ZooKeeper简介70
4.2.2 ZooKeeper的安装部署73
4.2.3 Leader选举机制75
4.2.4 ZooKeeper客户端访问集群
(命令行操作方式)82
4.3 HDFS与YARN高可用技术基础84
4.3.1 HDFS高可用的工作机制84
4.3.2 HDFS高可用配置85
4.3.3 YARN高可用的工作机制93
4.3.4 YARN高可用配置94
4.4 实践:HDFS及MapReduce的应用示例98
4.4.1 读写HDFS文件98
4.4.2 MapReduce操作 1:二次排序105
4.4.3 MapReduce操作 2:计数器110
4.4.4 MapReduce操作 3:Join操作113
本章小结119
本章练习119
第5章 Spark技术基础及构建Spark集群121
5.1 Spark核心机制121
5.1.1 Spark基本原理121
5.1.2 Spark系统架构122
5.1.3 Spark Shell操作123
5.2 Hive原理及实践124
5.2.1 Hive定义124
5.2.2 Hive架构124
5.2.3 Hive表分类及查询操作126
5.3 HBase原理及实践130
5.3.1 HBase定义130
5.3.2 HBase集群架构130
5.3.3 HBase数据模型131
5.4 Kafka原理及实践133
5.4.1 Kafka定义133
5.4.2 Kafka消息队列133
5.4.3 Kafka基础架构134
5.5 Flume原理及实践135
5.5.1 Flume简介135
5.5.2 Flume基础架构135
5.6 实践:搭建基于Spark的实时大数据平台137
5.6.1 Spark安装部署137
5.6.2 MySQL安装部署140
5.6.3 Hive安装部署141
5.6.4 HBase安装部署143
5.6.5 Kafka安装部署147
5.6.6 Flume安装部署149
5.6.7 Spark集群典型应用150
本章小结158
本章练习158
第三篇 平台构建篇
第6章 构建基于Spark的实时交易数据统计平台161
6.1 系统需求与架构161
6.1.1 系统背景介绍161
6.1.2 系统功能需求162
6.1.3 系统架构设计162
6.2 Redis简介163
6.2.1 Redis数据库的作用163
6.2.2 Redis部署与启动163
6.2.3 Redis常用命令165
6.3 系统开发流程166
6.4 数据获取模块实现174
6.4.1 模拟订单数据174
6.4.2 向Kafka集群发送订单数据175
6.5 数据分析与处理模块实现178
6.5.1 分析订单数据178
6.5.2 生成结果182
6.6 数据可视化模块实现182
6.6.1 搭建Web开发环境183
6.6.2 实现数据展示功能185
6.6.3 可视化平台展示192
本章小结192
本章练习192
第7章 构建基于Hadoop的离线电商大数据分析平台194
7.1 系统需求与架构194
7.1.1 系统背景介绍194
7.1.2 系统功能需求195
7.1.3 系统架构设计195
7.2 数据采集模块实现196
7.2.1 商品信息爬取196
7.2.2 调试分析210
7.3 数据处理与存储模块实现211
7.3.1 信息分析与处理211
7.3.2 商品信息存储220
7.3.3 调试分析222
7.4 数据可视化模块实现222
7.4.1 使用Superset连接MySQL数据库223
7.4.2 调试分析223
本章小结226
本章练习227
资料文件预览
共2文件夹,8个文件,文件总大小:16.75MB,压缩后大小:15.92MB
  • 大数据技术基础及应用教程(Linux+Hadoop+Spark)课件(附习题答案)
    • ppt
      • Office 2007以上版本的Microsoft Word文档习题答案.docx  [164.39KB]
      • Office 2007以上版本的Microsoft Powerpoint演示文稿第1章 大数据技术概述.pptx  [302.08KB]
      • Office 2007以上版本的Microsoft Powerpoint演示文稿第2章 大数据分析技术.pptx  [3.68MB]
      • Office 2007以上版本的Microsoft Powerpoint演示文稿第3章 Linux技术基础.pptx  [3.57MB]
      • Office 2007以上版本的Microsoft Powerpoint演示文稿第4章 Hadoop技术基础及构建Hadoop集群.pptx  [2.93MB]
      • Office 2007以上版本的Microsoft Powerpoint演示文稿第5章 Spark技术基础及构建Spark集群.pptx  [2.63MB]
      • Office 2007以上版本的Microsoft Powerpoint演示文稿第6章 构建基于Spark的实时交易数据统计平台.pptx  [2.48MB]
      • Office 2007以上版本的Microsoft Powerpoint演示文稿第7章 构建基于Hadoop的离线电商大数据分析平台.pptx  [1.00MB]
下载地址
资料评论
注意事项
下载FAQ:
Q: 为什么我下载的文件打不开?
A: 本站所有资源如无特殊说明,解压密码都是www.xuehai.net,如果无法解压,请下载最新的WinRAR软件。
Q: 我的学海币不多了,如何获取学海币?
A: 上传优质资源可以获取学海币,详细见学海币规则
Q: 为什么我下载不了,但学海币却被扣了?
A: 由于下载人数众多,下载服务器做了并发的限制。请稍后再试,48小时内多次下载不会重复扣学海币。
下载本文件意味着您已经同意遵守以下协议
1. 文件的所有权益归上传用户所有。
2. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
3. 学海网仅提供交流平台,并不能对任何下载内容负责。
4. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
5. 本站不保证提供的下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
课件相关下载
返回顶部