课程大纲:
*天
一、大数据基础
什么是大数据
大数据技术的产生背景
大数据应用场景
大数据思维
大数据产业链
大数据是如何变革各行业的技术架构、商业模式和组织方式
大数据必备的技术基础
大数据应用案例
二、业界主流Hadoop大数据平台技术产品与项目解决方案
国内外主流的大数据解决方案介绍
当前大数据解决方案与传统数据库方案的剖析比较
Apache Hadoop 大数据平台全流程解决方案
Cloudera Hadoop 大数据平台全流程解决方案
HDP Hadoop 大数据平台解决方案
开源的大数据生态系统平台剖析
大数据产品与解决方案
三、基于 Linux 集群的 Hadoop 依赖环境部署
Linux 操作系统部署与配置
Linux 网络配置管理
Linux 的 x86 服务器集群管理与配置
部署 Hadoop 依赖的 Java 环境
部署 Linux 多节点服务器之间的无密码连接
Linux 集群配置
部署 Linux 集群大数据环境
四、Hadoop 大数据平台
Hadoop 的发展历程以及产业界的实际应用介绍
Hadoop 大数据平台架构
基于 Hadoop 平台的 PB 级大数据存储管理与分析处理的工作原理与机制
Hadoop 的核心组件剖析
Hadoop 大数据平台
五、Hadoop 大数据分布式存储系统原理与应用实践( HDFS 集群的应用实践)
Hadoop 分布式文件系统 HDFS 的简介
HDFS 系统的主从式平台架构和工作原理
HDFS 核心组件技术讲解
HDFS NameNode 的工作机制和元数据管理
HDFS DataNode 的数据存储机制设计
HDFS 的副本机制设计
HDFS 的可靠性机制设计
HDFS 的 I/O 存取技术应用
六、HDFS 大 数 据存储系统操作实践
基于 HDFS 的大型存储系统应用开发实战
HDFS 集群的安装、部署、配置与性能优化实践
HDFS 与 Linux NFS3 交互技术以及本地化挂载部署应用实践
分布式键值存储系统的平台架构、 核心技术以及应用开发
PB 及大数据存储系统的项目案例分析
七、HDFS 大 数 据存储系统操作实践
Hadoop 系统部署与配置
HDFS(Hadoop Distributed File System)部署与配置
HDFS 文件与 I/O 操作
HDFS 性能调优
HDFS 数据加载操作
HDFS 数据写入与读取操作
HDFS 数据文件压缩操作
HDFS 部署、配置与性能调优操作训练
第 二 天
一、大数据并行处理平台MapReduce与 Yarn 技术实践
MapReduce 并行计算模型
MapReduce 作业执行与调度技术
第二代大数据处理框架 Yarn 的并行处理实战
MapReduce 应用开发环境的部署, 以及大数据并行处理应用程序开发
MapReduce 高级编程技巧与性能优化实践
MapReduce 与 Yarn 大数据分析处理案例分析
MapReduce 大数据并行处理
二、Yarn 集群操作
Yarn 集群的部署与配置
Yarn 执行 MapReduce 作业的性能调优
Yarn 作业的执行参数配置
三、Hadoop 大数据分析处理应用平台操作
部署与配置 HDFS, 熟练操作 HDFS SHELL, HDFS与 NFS 操作, 以及 HDFS API 开发实践
部署与配置 MapReduce 与 Yarn 及其开发实践
Hadoop 大数据处理应用程序开发项目训练
Hadoop 项目开发操作
四、Hadoop 集群配置管理与性能调优
Hadoop 集群配置
Hadoop 性能调优与参数配置
Hadoop 机架感知策略与配置
Hadoop 压缩机制
Hadoop 任务负载均衡
Hadoop 集群维护
Hadoop 监控管理
Hadoop 备份
Hadoop 集 群调优
五、Hadoop 分布式数据库(HBase)应用实战
NoSQL 数据库与 NewSQL 数据库技术介绍,及Hadoop 数据库典型代表--HBase 在半结构化和非结构化大数据管理方面的应用实践
HBase 分布式数据库简介、 发展历程、应用场景、 工作原理、以及应用优势与不足之处
HBase 分布式数据库集群的主从式平台架构和关键技术剖析
HBase 伪分布式和物理集群分布式的控制与运行配置
HBase 的逻辑数据模型, HBase 的表、行、列族、 列、单元格、版本、 row key 排序
HBase 的物理模型, 命名空间(表空间) 、表模式(Schema) 的设计法则
HBase 主节点 HMaster 的工作原理, HMaster的高可用配置,以及性能调优
HBase 从节点 RegionServer(分区服务节点)的工作原理, 表分区及存储 I/O 高并发配置,以及性能调优
HBase 的存储引擎工作原理,以及 HBase 表数据的键值存储结构, 以及 HFile 存储结构
HBase 表设计与数据操作以及数据管理操作
HBase 集群安装部署、 参数配置和性能优化
ZooKeeper 分布式协调服务系统的工作原理、平台架构、集群部署应用实战
HBase 的元数据管理,以及与 ZooKeeper 的交互机制
HBase 管理查询半结构化数据的系统操作
六、HBase 操作实践
l HBase 单机部署
l HBase 分布式集群部署与配置
l HBase 与 Hadoop 的集成部署与配置
l 部署与配置 ZooKeeper 分布式集群
l HBase 集群的运维与监控管理,以及常见故障的解决之道
l HBase 数据库管理日志数据的实现操作
l HBase 操作训练
第 三 天
一、大数据平台集群运维监控工具平台应用
l Hadoop 大数据运维监控管理系统 HUE 平台的安装部署与应用配置
Hadoop 运维管理监控系统 Ambari 平台的安装部署与应用配置
Hadoop 集群运维系统 Ganglia, Nagios 的安装部署与应用配置Hadoop 集 群监控管理操作基于 Hadoop 的大 型 数 据 仓 库Hive 集群的大数据平台应用实践
基于Hadoop 的大型分布式数据仓库基础知识,HIVE 在行业中的数据仓库应用案例
Hive 大数据仓库简介以及应用介绍
Hive 数据仓库集群的平台体系结构、核心技术剖析
Hive Server 的工作原理、 机制与应用
Hive 数据仓库集群的安装部署与配置优化
Hive 应用开发技巧
Hive SQL 剖析与应用实践
Hive 数据仓库表与表分区、表操作、数据导入导出、 客户端操作技巧
Hive 数据仓库报表设计
Hive JDBC 与 ODBC 的工作原理与实现机制
Hive HWI、 CLI 客户端操作以及 UDF 应用实践
Hive 数据仓库操作训练
二、Hive 数据仓库分析应用操作训练
部署与配置 HIVE 集群,以及 HIVE 性能调优
构建 HIVE 开发环境
HIVE 数据仓库操作及项目实践
基于 Hive 执行日志分析与查询
基于 Hive 的经分数据分析平台实践
Hive 数据仓库分析项目操作
三、Spark 大数据实时分析处理平台
Spark 的发展历程以及业界的实际应用介绍
Spark 实时大数据处理平台架构
Spark RDD 内存弹性分布式数据集的工作原理与机制
Spark 的核心组件剖析
基于 Spark 的实时数据仓库与实时分析挖掘处理在行业中的应用实践案例
Spark 分 析 平台部署
第 四 天
一、Spark 应用基础
Spark 的实时处理基础知识
Spark 生态系统概述以及发展历程
Spark 处理实时大数据的优势和处理模式
Spark 内存计算编程框架
Spark Core 的基础原理
Spark SQL 的基础原理
Spark Streaming 的基础原理
Spark MLib 的基础原理
Spark GraphX 的基础原理
SparkR 的基础原理
Spark 大数据分析应用行业案例
Spark 核心组件配置与运用
二、Spark 部署配置
Spark Standalone 集群部署配置
Spark on Yarn 部署配置
Spark 开发环境部署配置
Spark 的单机部署与配置
Spark 的集群部署与配置
Spark 部署配置与性能调优
三、Spark 的监控管理和性能调优
Spark 的运行监控原理和机制
Spark UI 监控
Spark 性能调优技巧
Spark 应用程序的配置优化
Spark 集群的监控配置和优化
Spark 集 群 的监控操作
四、Spark SQL 多维分析应用实战
Spark SQL 实时数据仓库多维分析实现原理与操作
Spark SQL 应用案例
Spark SQL 客户端开发包 API
Spark S