课程大纲:
一、?数据的产?背景
?数据的主要特征
?数据的主要应?场景
?数据的?前的软件?态圈
?数据思维与应?
二、?数据计算系统?络与节点规划
服务器规划
?络规划
机房规划
数据库规划
?员规划
技术储备规划
三、?数据的起源与?标
什么是?数据?
?数据的产?背景
?数据的核?理念
?数据能做什么?
?数据技术IT?员的挑战
?数据运动的?标
四、?数据与Hadoop
Google的“三驾??”:起源
Hadoop的前世今?
?数据与Hadoop
Hadoop的社区版与发?版
Hadoop的?态圈
Hadoop的3?主要部件: HDFS、 MapReduce、 HBase
Hadoop 2.0的新特性: HA和YARN
Hadoop的使?场景
Hadoop的挑战者: Spark
五、Hadoop的应?模式
?数据资产的运营?式
Hadoop统?平台
数据采集:来源、架构与难点
数据分析及其能?层次
六、Ubuntu系统安装
磁盘规划(RAID、分区、 LVS)
系统版本的选择
系统安装?式
?络设置
?户与权限系统配置
SSH安装与配置
JDK的安装与配置
Java安装
Python与第三?库的安装与使?
Scala的安装与使?
七、HADOOP系统的安装与基本配置
节点规划
Namenode节点规划与配置
Datanode数字节点规划与配置
Spark安装与配置
节点配置
计算资源分配
八、Hadoop基本操作
Hadoop的版本与查看?式
查看HDFS的管理界?
查看MapReduce的管理界?
HDFS的基本操作命令
Hadoop的主要进程
九、HDFS的基本特性
HDFS的基本组成
HDFS的源数据信息
HDFS的汇总信息查看
HDFS的数据块(Block)
HDFS数据块的副本(Replication)
Replication(副本)与Rack Awareness
查看与指定Replication
元数据与fsImage
EditLog与Checkpoint
Hadoop HA的起源和架构
Hadoop HA的两种实现?式
Zookeeper基本原理与??
十、MapReduce
什么是MapReduce?
术语介绍
MapReduce程序设计思想举例
MapReduce程序的基本结构
MapReduce程序的驱动与main函数
运?MapReduce程序
MapReduce程序的执?过程
常?的Hadoop?件格式与压缩
Sequential File(顺序?件)
Hadoop?件的压缩
序列化与Writable接?
Split与map的并发执?
l MapReduce程序示例
十一、HIVE初步
l HIVE是什么?
l HIVE的组成
l HIVE的3种部署?式
l HIVE的数据源
l HIVE的性能
十二、Hive安装部署
l Hive数据库安装
l Metastore安装
l Hive与HDFS的配置
l Hive的数据导?与导出
l Hive数据库表的管理
l 配置hive-server2
l Hive数据接?的使?
十三、?进Spark
从MapReduce到Spark
Spark的适?性、优势和软肋
Berkeley Data Analytics Stack(BDAS)
Spark的安装部署
Spark的4种运?模式
第?个Spark实例
以多种形式运?Spark程序,体验在复杂场景下, Spark的灵活运??式。
十四、Spark与RDD
Resilient Distributed Datasets(RDD)
RDD的特点
创建RDD
RDD的Transformations和Actions
RDD的容错机制
Key-Value?格的RDD
RDD的持久化
RDD的持久化与序列化(Cache)
案例: Word Count
使?Spark和RDD完成复杂的数据处理任务,体验函数式编程的简洁与?效。