全套服務(在線、面授均享)
1、面授+遠程+錄播
2、24小時遠程真機練習
3、行業(yè)專家講師親臨授課
4、每班一名班主任督學
5、一年半免費重聽學習
通過Cloudera公司的ApacheHadoop培訓將您的知識提升到一個新的水平。
Cloudera大學提供的為期4天的數(shù)據(jù)分析培訓課程專注于ApachePig、Hive和ClouderaImpala,將教會您如何將傳統(tǒng)的數(shù)據(jù)分析和商業(yè)智能技術應用到大數(shù)據(jù)領域。Cloudera為數(shù)據(jù)專業(yè)人員提供了基于SQL和其它熟悉的腳本編程語言的工具,用來訪問、操作、轉換和分析復雜數(shù)據(jù)集。
學習掌握現(xiàn)代大數(shù)據(jù)分析工具
學員在本課程中將學習掌握以下現(xiàn)代大數(shù)據(jù)分析工具:
● ApacheImpala(孵化項目)作為一個SQL運行環(huán)境提供對Hadoop里的數(shù)據(jù)進行即時交互式分析的能力。
● ApacheHive為數(shù)據(jù)分析師、數(shù)據(jù)庫管理員以及其他非Java編程人員提供了一個類-SQL的查詢語言HiveQL來分析處理Hadoop數(shù)據(jù)。
● ApachePig提供腳本編程工具來分析處理Hadoop數(shù)據(jù)。
一.培訓內容
通過講師在課堂上的講解,以及實操練習,學員將熟悉Hadoop生態(tài)系統(tǒng),學習主題包括:
● 使用Pig,Hive及Impala獲取、存儲及分析數(shù)據(jù)。
● 使用Hadoop工具執(zhí)行基本的ETL工作(抽?。璭xtract,轉換-transform和加載-load)。
● 使用Pig、Hive及Impala改善典型分析任務的效率。
● 關聯(lián)不同及豐富的數(shù)據(jù)源以獲取全面和真實的商業(yè)價值。
● 對數(shù)據(jù)集進行交互式和復雜查詢。
二.培訓對象及學員基礎
本課程是專為數(shù)據(jù)分析師、商業(yè)智能專家、開發(fā)人員、系統(tǒng)架構師和數(shù)據(jù)庫管理員開發(fā)的。培訓學員不需要具備ApacheHadoop知識。
● 需具備一定的SQL知識水平。
● 基本熟悉Linux命令行。
● 培訓學員至少熟悉一種腳本語言知識(例如,Bash腳本編程、Perl、Python和Ruby)將會更有幫助,但不是必需的。
三.認證
結束本課程培訓后,我們建議學員準備并注冊參加ClouderaCCA數(shù)據(jù)分析師認證考試。通過并獲得該證書是向公司及客戶證明個人在Hadoop數(shù)據(jù)分析領域的技術和專長的有力依據(jù)。
四.課程大綱
1. Hadoop基礎知識
● Hadoop動機
● Hadoop概覽
● 數(shù)據(jù)存儲:HDFS
● 分布式數(shù)據(jù)處理:YARN、MapReduce和Spark
● 數(shù)據(jù)處理與分析:Pig、Hive和Impala
● 數(shù)據(jù)集成:Sqoop
● 其它的Hadoop數(shù)據(jù)工具
● 練習分析場景說明
2. Pig簡介
● Pig是什么
● Pig的特點
● Pig使用案例
● 與Pig的交互
3. Pig基本數(shù)據(jù)分析
● PigLatin語法
● 加載數(shù)據(jù)
● 簡單數(shù)據(jù)類型
● 字段定義
● 數(shù)據(jù)輸出
● 架構查看
● 數(shù)據(jù)篩選和排序
● 常用函數(shù)
4. 使用Pig處理復雜的數(shù)據(jù)
● 數(shù)據(jù)存儲格式
● 復合/嵌套數(shù)據(jù)類型
● 數(shù)據(jù)分組
● 復雜數(shù)據(jù)內置函數(shù)
● 遍歷分組數(shù)據(jù)
5. Pig多數(shù)據(jù)集操作
● 數(shù)據(jù)集合并技術
● 在Pig中聯(lián)接數(shù)據(jù)集
● 集合運算
● 拆分數(shù)據(jù)集
6. Pig故障診斷和性能優(yōu)化
● Pig故障排除
● 日志
● 使用Hadoop的WebUI
● 數(shù)據(jù)采樣及調試
● 性能概述
● 了解執(zhí)行計劃
● 提高Pig作業(yè)性能的技巧
7. Hive和Impala簡介
● 什么是Hive
● 什么是Impala
● 為什么使用Hive和Impala
● 架構和數(shù)據(jù)存儲
● Hive及Impala與傳統(tǒng)數(shù)據(jù)庫的比較
● Hive使用案例
8. 使用Hive和Impala進行數(shù)據(jù)查詢
● 數(shù)據(jù)庫和表
● 基本的Hive和Impala查詢語言語法
● 數(shù)據(jù)類型
● 使用Hue來執(zhí)行查詢
● 使用Beeline(HiveShell)
● 使用ImpalaShell
9. Hive及Impala數(shù)據(jù)管理
● 數(shù)據(jù)存儲
● 創(chuàng)建數(shù)據(jù)庫和表
● 加載數(shù)據(jù)
● 修改數(shù)據(jù)庫和表
● 使用視圖簡化查詢
● 存儲查詢結果
10. 數(shù)據(jù)存儲和性能
● 對表進行分區(qū)
● 分區(qū)表的數(shù)據(jù)加載
● 何時使用分區(qū)
● 文件格式的選取
● 使用Avro及Parquet文件格式
11. 使用Hive和Impala進行關系數(shù)據(jù)分析
● 連接數(shù)據(jù)集
● 常見的內置函數(shù)
● 聚合和窗口函數(shù)
12. 復雜數(shù)據(jù)類型
● 在Hive里使用復雜數(shù)據(jù)
● 在Impala里使用復雜數(shù)據(jù)
13. 使用Hive及Impala分析文本數(shù)據(jù)
● 在Hive及Impala里使用正則表達式
● 在Hive里通過SerDe加載處理文本
● 情感分析及n-gram
14. Hive優(yōu)化
● 了解查詢性能
● Bucketing(分桶)
● 索引數(shù)據(jù)
● HiveonSpark
15. Impala優(yōu)化
● Impala如何執(zhí)行查詢
● 改善Impala性能
16. 擴展Hive及Impala
● 使用SerDe加載特殊格式文件
● 通過定制腳本來轉換數(shù)據(jù)
● 用戶自定義函數(shù)
● 參數(shù)化查詢
17. 選擇好工具
● 比較Pig、Hive、Impala和關系數(shù)據(jù)庫該選擇哪一個
18. 總結
Cloudera大數(shù)據(jù)課程體系