課程長度:3天
培訓(xùn)對象:
需要使用Apache Spark來開發(fā)功能強大的數(shù)據(jù)分析應(yīng)用的程序開發(fā)人員和大數(shù)據(jù)工程師。
學(xué)員基礎(chǔ):
本課程使用Scala和Python進行講解。學(xué)員需至少掌握這兩種編程語言的其中一種,具備面向?qū)ο蟮木幊袒A(chǔ)及經(jīng)驗。掌握基本的Linux技能,無需Hadoop方面的基礎(chǔ)和經(jīng)驗。
培訓(xùn)內(nèi)容:
?使用Spark的動機
?Spark基礎(chǔ)
?Resilient Distributed Datasets (RDDs)
?HDFS
?在機群環(huán)境下運行Spark
?Spark并發(fā)處理
?Caching和Persistence
?編寫Spark應(yīng)用
?集成Spark、Hadoop到企業(yè)數(shù)據(jù)中心
?Spark Streaming
?常用Spark算法舉例
?Spark性能
教學(xué)大綱:
?介紹
?傳統(tǒng)大規(guī)模系統(tǒng)的問題
?Spark簡介
?Spark Shell
?RDDs
?Spark函數(shù)式編程
?RDD操作
?鍵-值對型RDD
?MapReduce和鍵-值對型RDD操作
?HDFS體系結(jié)構(gòu)
?如何使用HDFS
?Spark機群
?Spark機群Web UI
?RDD分區(qū)和HDFS數(shù)據(jù)本地化
?使用分區(qū)并行處理
?RDD Lineage
?Caching和Persistence
?編寫Spark應(yīng)用
?創(chuàng)建SparkContex
?配置Spark屬性
?生成和運行Spark應(yīng)用程序
?日志
?Spark和Hadoop生態(tài)系統(tǒng)
?Spark和MapReduce
?Spark流處理
?Streaming單詞計數(shù)舉例
?Streaming操作
?滑動窗口Streaming操作
?編寫Spark流處理應(yīng)用
?迭代算法
?圖處理分析
?機器學(xué)習(xí)
?共享變量:Broadcast變量
?共享變量:Accumulators
?常見性能問題