課程長度:3天/18小時
培訓對象:
需要使用Hadoop來進行數(shù)據(jù)分析的數(shù)據(jù)分析員,商業(yè)分析員,開發(fā)員以及系統(tǒng)管理員。
學員基礎:
建議需具備SQL、簡單Unix/Linux命令和腳本編程經(jīng)驗。無需Hadoop基礎和經(jīng)驗。
學習內(nèi)容:
?ApacheHadoop基礎及數(shù)據(jù)ETL(包括數(shù)據(jù)提取、轉換及加載)、如何通過使用Hadoop相關工具將數(shù)據(jù)載入Hadoop并進行分析處理
?如何使用ApachePig對多個關聯(lián)的數(shù)據(jù)集進行join操作以及如何分析不同的獨立數(shù)據(jù)
?如何使用ApacheHive:通過定義合適的表來組織數(shù)據(jù)、執(zhí)行各種數(shù)據(jù)變換、簡化復雜查詢
?如何使用Impala來對存儲在HDFS里的大規(guī)模數(shù)據(jù)進行實時和交互式的分析查詢
?如何根據(jù)數(shù)據(jù)分析任務來選擇合適的數(shù)據(jù)分析工具
學習大綱:
?介紹
?Hadoop基礎
?Pig基礎
?使用Pig進行簡單數(shù)據(jù)分析
?使用Pig處理復雜數(shù)據(jù)
?使用Pig分析處理多數(shù)據(jù)集
?擴展Pig
?Pig排錯和優(yōu)化
?Hive基礎
?使用Hive進行數(shù)據(jù)分析
?Hive數(shù)據(jù)管理
?使用Hive分析處理文本數(shù)據(jù)
?Hive優(yōu)化
?擴展Hive
?Impala基礎
?使用Impala進行數(shù)據(jù)分析
?如何選取數(shù)據(jù)分析工具
?結論