大数据”技术指的是由数量巨大、结构复杂、类型众多数据构成的数据集合,对大数据的采集、清洗、存储、查找、传输、分享、分析、可视化等操作超越了现有的关系数据库与数据处理软件的承受能力,所以大数据储存与处理的成本只有少数公司才能承担。Google公司为了存储和计算自己所需的海量互联网资源开发了GFS分布文件系统、BigTable数据库和MapReduce算法,并在2004年采用论文的方式公开的自己的研究成果。随着时间的推移,作为google类似技术替代者的开源软件hadoop以及建立于hadoop基础上的软件逐渐成为了大数据存储与处理技术的主流。现在我们指的“大数据技术”,一般特指对Hadoop集群的安装部署管理及在其上的Mapreduce编程计算,还包含大数据处理相关的算法与工具软件。
本课程即以Hadoop作为基础,讲解了包含Hadoop体系结构,安装管理,MapReduce编程以及基于Hadoop的上层软件Hive、Pig、HBase、Mahout等软件的管理和应用。在高级课程中将重点放在Hadoop在现实企业中与其他软件的连接与互动,并在课程中包含了大量的数据挖掘、数据分析的实例。使得学员不但掌握基本技术,并且可以从容面对企业应用场景,更快的融入到大数据的潮流中来。
大数据I 培训课程内容
Hadoop体系介绍
配置Hadoop集群
分布式文件系统HDFS原理与操作,HDFS API编程
Map-Reduce原理、体系架构和工作机制,Hadoop流
Map-Reduce实战
eclipse与Hadoop集群连接
Map-Reduce复杂应用案例
新一代计算框架YARN
Pig安装与Pig Latin语言,应用案例
Hive体系架构、安装与HiveQL,应用案例
数据挖掘工具Mahout
HBase与Zookeeper体系架构
HBase集群安装,管理
HBase数据模型,实战案例建模剖析
企业级集群实施,Hadoop在互联网企业中的应用案例