全套服務(wù)(在線、面授均享)
1、面授+遠(yuǎn)程+錄播
2、24小時(shí)遠(yuǎn)程真機(jī)練習(xí)
3、行業(yè)專家講師親臨授課
4、每班一名班主任督學(xué)
5、一年半免費(fèi)重聽學(xué)習(xí)
學(xué)習(xí)如何使用Hadoop生態(tài)系統(tǒng)關(guān)鍵性技術(shù)來導(dǎo)入并處理數(shù)據(jù)。
在為期4天的培訓(xùn)中,學(xué)員將學(xué)習(xí)關(guān)鍵概念和掌握使用新技術(shù)和工具將數(shù)據(jù)采集到Hadoop集群并進(jìn)行處理。通過學(xué)習(xí)掌握諸如Spark(包括SparkStreaming和SparkSQL)、Flume、Kafka以及Sqoop這樣的Hadoop生態(tài)系統(tǒng)工具和技術(shù),Hadoop開發(fā)員將具備解決實(shí)際大數(shù)據(jù)問題和挑戰(zhàn)的能力。使用Spark,不同行業(yè)的開發(fā)人員可以為不同的商業(yè)應(yīng)用和系統(tǒng)架構(gòu)編寫復(fù)雜的并行應(yīng)用,得以更快速地獲取更優(yōu)的商業(yè)決策,幫助決策人員進(jìn)行及時(shí)應(yīng)對。
一.培訓(xùn)內(nèi)容
● 通過講師在課堂上的講解,以及實(shí)操練習(xí),學(xué)員將學(xué)習(xí)以下內(nèi)容:
● 在Hadoop集群上進(jìn)行分布式存儲和處理數(shù)據(jù)。
● 通過在Hadoop集群上編寫、配置和部署ApacheSpark應(yīng)用。
● 使用Sparkshell進(jìn)行交互式數(shù)據(jù)分析。
● 使用SparkSQL查詢處理結(jié)構(gòu)化數(shù)據(jù)。
● 使用SparkStreaming處理流式數(shù)據(jù)。
● 使用Flume和Kafka為SparkStreaming采集流式數(shù)據(jù)。
二.培訓(xùn)對象及學(xué)員基礎(chǔ)
● 本課程適合于具有編程經(jīng)驗(yàn)的開發(fā)員及工程師。無需ApacheHadoop基礎(chǔ)。
● 培訓(xùn)內(nèi)容中對ApacheSpark的介紹所涉及的代碼及練習(xí)使用Scala和Python,因此需至少掌握這兩個(gè)編程語言中的一種。
● 需熟練掌握Linux命令行。
● 對SQL有基本了解。
三.課程大綱
1. Hadoop及生態(tài)系統(tǒng)介紹
● ApacheHadoop概述
● 數(shù)據(jù)存儲和攝取
● 數(shù)據(jù)處理
● 數(shù)據(jù)分析和探索
● 其他生態(tài)系統(tǒng)工具
● 練習(xí)環(huán)境及分析應(yīng)用場景介紹
2. ApacheHadoop文件存儲
● 傳統(tǒng)大規(guī)模系統(tǒng)的問題
● HDFS體系結(jié)構(gòu)
● 使用HDFS
● ApacheHadoop文件格式
3. ApacheHadoop集群上的數(shù)據(jù)處理
● YARN體系結(jié)構(gòu)
● 使用YARN
4. 使用ApacheSqoop導(dǎo)入關(guān)系數(shù)據(jù)
● Sqoop簡介
● 數(shù)據(jù)導(dǎo)入
● 導(dǎo)入的文件選項(xiàng)
● 數(shù)據(jù)導(dǎo)出
5. ApacheSpark基礎(chǔ)
● 什么是ApacheSpark
● 使用SparkShell
● RDDs(可恢復(fù)的分布式數(shù)據(jù)集)
● Spark里的函數(shù)式編程
6. SparkRDD
● 創(chuàng)建RDD
● 其他一般性RDD操作
7. 使用鍵值對RDD
● 鍵值對RDD
● MapReduce
● 其他鍵值對RDD操作
8. 編寫和運(yùn)行ApacheSpark應(yīng)用
● Spark應(yīng)用對比SparkShell
● 創(chuàng)建SparkContext
● 創(chuàng)建Spark應(yīng)用(Scala和Java)
● 運(yùn)行Spark應(yīng)用
● Spark應(yīng)用WebUI
9. 配置ApacheSpark應(yīng)用
● 配置Spark屬性
● 運(yùn)行日志
10. ApacheSpark的并行處理
● 回顧:集群環(huán)境里的Spark
● RDD分區(qū)
● 基于文件RDD的分區(qū)
● HDFS和本地化數(shù)據(jù)
● 執(zhí)行并行操作
● 執(zhí)行階段及任務(wù)
11. Spark持久化
● RDD演變族譜
● RDD持久化簡介
● 分布式持久化
12. ApacheSpark數(shù)據(jù)處理的常見模式
● 常見Spark應(yīng)用案例
● 迭代式算法
● 機(jī)器學(xué)習(xí)
● 例子:K-Means
13. DataFrames和SparkSQL
● ApacheSparkSQL和SQLContext
● 創(chuàng)建DataFrames
● 變更及查詢DataFrames
● 保存DataFrames
● DataFrames和RDD
● SparkSQL對比Impala和Hive-on-Spark
● Spark2.x版本上的ApacheSparkSQL
14. ApacheKafka
● 什么是ApacheKafka
● ApacheKafka概述
● 如何擴(kuò)展ApacheKafka
● ApacheKafka集群架構(gòu)
● ApacheKafka命令行工具
15. 使用ApacheFlume采集實(shí)時(shí)數(shù)據(jù)
● 什么是ApacheFlume
● Flume基本體系結(jié)構(gòu)
● Flume源
● Flume槽
● Flume通道
● Flume配置
16. 集成ApacheFlume和ApacheKafka
● 概要
● 應(yīng)用案例
● 配置
17. ApacheSparkStreaming:DStreams介紹
● ApacheSparkStreaming概述
● 例子:Streaming訪問計(jì)數(shù)
● DStreams
● 開發(fā)Streaming應(yīng)用
18. ApacheSparkStreaming:批處理
● 批處理操作
● 時(shí)間分片
● 狀態(tài)操作
● 滑動窗口操作
19. ApacheSparkStreaming:數(shù)據(jù)源
● Streaming數(shù)據(jù)源概述
● ApacheFlume和ApacheKafka數(shù)據(jù)源
● 例子:使用Direct模式連接Kafka數(shù)據(jù)源
20. 結(jié)論
Cloudera大數(shù)據(jù)課程體系