课程长度:3天/18小时
培训对象:
需要使用Hadoop来进行数据分析的数据分析员,商业分析员,开发员以及系统管理员。
学员基础:
建议需具备SQL、简单Unix/Linux命令和脚本编程经验。无需Hadoop基础和经验。
学习内容:
?Apache Hadoop基础及数据ETL(包括数据提取、转换及加载)、如何*使用Hadoop相关工具将数据载入Hadoop并进行分析处理
?如何使用Apache Pig对多个关联的数据集进行join操作以及如何分析不同的独立数据
?如何使用Apache Hive:*定义合适的表来组织数据、执行各种数据变换、简化复杂查询
?如何使用Impala来对存储在HDFS里的大规模数据进行实时和交互式的分析查询
?如何根据数据分析任务来选择合适的数据分析工具
教学大纲
?介绍
?Hadoop基础
?Pig基础
?使用Pig进行简单数据分析
?使用Pig处理复杂数据
?使用Pig分析处理多数据集
?扩展Pig
?Pig排错和优化
?Hive基础
?使用Hive进行数据分析
?Hive数据管理
?使用Hive分析处理文本数据
?Hive优化
?扩展Hive
?Impala基础
?使用Impala进行数据分析
?如何选取数据分析工具
?结论