招生對象: 課程長度:4天/24小時 培訓(xùn)對象: 企業(yè)管理者、CIO、CTO、政府信息部門官員、項目(開發(fā))經(jīng)理、顧問;IT經(jīng)理,IT顧問,IT支持專家;系統(tǒng)工程師、數(shù)據(jù)中心管理員、云計算管理員及想加入云計算隊伍的您。 培訓(xùn)前提: 計算機相關(guān)專業(yè);具備基本Linux系統(tǒng)管理經(jīng)驗;不需要事先掌握Hadoop相關(guān)知識。 認(rèn)證證書: 通過考試可獲得Cloudera Certified Administrator for Apache Hadoop (CCAH)。 培訓(xùn)目標(biāo): ?Hadoop 分布式文件系統(tǒng)和 MapReduce 工作原理 ?Hadoop 集群硬件配置規(guī)劃 ?Hadoop 集群網(wǎng)絡(luò)配置規(guī)劃 ?Hadoop 集群配置及優(yōu)化 ?如何配置NameNode HA ?任何配置NameNode Federation ?任何配置FairScheduler 為多用戶共享 Hadoop 集群 ?任何為Hadoop 集群安裝和實現(xiàn)基于 Kerberos 的安全性 ?維護(hù)和監(jiān)測Hadoop 集群 ?使用Flume加載動態(tài)產(chǎn)生的文件以及使用Sqoop連接關(guān)系數(shù)據(jù)庫進(jìn)行數(shù)據(jù)導(dǎo)入導(dǎo)出 ?Hive、Pig 和 HBase 等 Hadoop 生態(tài)系統(tǒng)工具相關(guān)的系統(tǒng)管理工作 培訓(xùn)內(nèi)容: ?介紹 ?ApacheHadoop 的應(yīng)用案例 ?Hadoop 分布式文件系統(tǒng) ?Hadoop 數(shù)據(jù)載入 ?MapReduce ?規(guī)劃Hadoop 機群 ?Hadoop 安裝和基本配置 ?安裝配置Hive,Impala 和 Pig ?Hadoop 客戶端 ?高級配置 ?Hadoop 安全 ?管理和調(diào)度作業(yè) ?機群維護(hù) ?機群監(jiān)測和排錯 ?結(jié)論 ?附錄:Kerberos配置 ?附錄:HDFSFederation 配置
招生對象: 課程長度:4天/24小時 培訓(xùn)對象: 企業(yè)管理者、CIO、CTO、政府信息部門官員、項目(開發(fā))經(jīng)理、顧問;IT經(jīng)理,IT顧問,IT支持專家;系統(tǒng)工程師、數(shù)據(jù)中心管理員、云計算管理員及想加入云計算隊伍的您。 培訓(xùn)前提: 具備編程經(jīng)驗的開發(fā)人員;熟悉面向?qū)ο蟾呒壘幊陶Z言,如Java;不需要事先掌握Hadoop相關(guān)知識。 課程目標(biāo): 通過考試可獲得Cloudera Certified Developer for Apache Hadoop (CCDH) 證書。 培訓(xùn)目標(biāo): ?Hadoop 核心 ?HDFS 和MapReduce 工作原理 ?如何開發(fā)MapReduce 應(yīng)用 ?如何單元測試 MapReduce 應(yīng)用 ?如何使用MapReduce combiners, partitioners 和 distributed cache ?開發(fā)調(diào)試MapReduce 應(yīng)用 ?如何實現(xiàn)MapReduce 應(yīng)用中的輸入/輸出 ?常見MapReduce 算法 ?如何用MapReduce 來聯(lián)結(jié)數(shù)據(jù)集 ?如何把Hadoop 嵌入到企業(yè)已有的計算環(huán)境里 ?如何使用Hive、Impala 和 Pig 來快速開發(fā)數(shù)據(jù)分析應(yīng)用 ?如何使用Oozie 來創(chuàng)建管理工作流 培訓(xùn)內(nèi)容: ?介紹 ?Hadoop 起源和動機 ?Hadoop 基本概念和HDFS ?MapReduce 介紹 ?Hadoop 集群和Hadoop 生態(tài)系統(tǒng) ?使用Java 編寫 MapReduce 程序 ?使用Streaming 編寫 MapReduce 程序 ?MapReduce 單元測試 ?深入Hadoop API ?開發(fā)技巧 ?Reducer 和Partitioner ?數(shù)據(jù)輸入/輸出 ?常見MapReduce 算法 ?用MapReduce 來聯(lián)結(jié)數(shù)據(jù)集 ?把Hadoop 嵌入到企業(yè)已有的計算環(huán)境里 ?Hive、Impala和 Pig 簡介 ?Oozie 簡介 ?結(jié)論 ?附錄:Cloudera Enterprise
招生對象: 課程長度:4天/24小時 培訓(xùn)對象: 已經(jīng)熟悉 Apache Hadoop的開發(fā)員。培訓(xùn)對象應(yīng)該對 Hadoop 的體系結(jié)構(gòu)和 API 比較熟悉并具備應(yīng)用開發(fā)的經(jīng)驗。Cloudera 的Hadoop開發(fā)員和管理員培訓(xùn)可以作為基礎(chǔ)課程。 學(xué)員基礎(chǔ): 該課程適合于供開發(fā)員和系統(tǒng)管理員學(xué)習(xí) HBase。具備數(shù)據(jù)庫和數(shù)據(jù)建模的基礎(chǔ)和經(jīng)驗將對本課程的學(xué)習(xí)有所幫助,但不是必需的。具備 Java 基礎(chǔ)和經(jīng)驗將有所幫助。Cloudera 的開發(fā)員和管理員培訓(xùn)可以提供學(xué)員相關(guān)的基礎(chǔ)。 培訓(xùn)內(nèi)容: ?HBase 機群組件 ?何時該使用HBase 以及何時不該使用 HBas ?如何使用HBase shell 來直接操作 HBase 數(shù)據(jù) ?如何優(yōu)化設(shè)計 HBase schemas 來進(jìn)行有效的數(shù)據(jù)存儲和恢復(fù) ?學(xué)習(xí)使用HBase 的 Java API 及非 Java API ?如何配置HBase 機群 ?如何管理HBase 機群, 發(fā)現(xiàn)和解決性能問題 課程大綱: ?介紹 ?Hadoop 介紹 ?HBase 介紹 ?HBase 基本概念 ?HBase 管理API ?HBase 數(shù)據(jù)訪問API(上) ?HBase 數(shù)據(jù)訪問API(中) ?HBase 數(shù)據(jù)訪問API(下) ?HBase 體系結(jié)構(gòu)(上) ?HBase 體系結(jié)構(gòu)(下) ?HBase 安裝和配置 (上) ?HBase 安裝和配置 (中) ?HBase 安裝和配置 (下) ?HBase 里的Row Key 設(shè)計 ?HBaseSchema 設(shè)計 ?HBase 生態(tài)系統(tǒng)介紹 ?結(jié)論
招生對象: 課程長度:3天/18小時 培訓(xùn)對象: 需要使用Hadoop來進(jìn)行數(shù)據(jù)分析的數(shù)據(jù)分析員,商業(yè)分析員,開發(fā)員以及系統(tǒng)管理員。 學(xué)員基礎(chǔ): 建議需具備SQL、簡單Unix/Linux命令和腳本編程經(jīng)驗。無需Hadoop基礎(chǔ)和經(jīng)驗。 學(xué)習(xí)內(nèi)容: ?ApacheHadoop基礎(chǔ)及數(shù)據(jù)ETL(包括數(shù)據(jù)提取、轉(zhuǎn)換及加載)、如何通過使用Hadoop相關(guān)工具將數(shù)據(jù)載入Hadoop并進(jìn)行分析處理 ?如何使用ApachePig對多個關(guān)聯(lián)的數(shù)據(jù)集進(jìn)行join操作以及如何分析不同的獨立數(shù)據(jù) ?如何使用ApacheHive:通過定義合適的表來組織數(shù)據(jù)、執(zhí)行各種數(shù)據(jù)變換、簡化復(fù)雜查詢 ?如何使用Impala來對存儲在HDFS里的大規(guī)模數(shù)據(jù)進(jìn)行實時和交互式的分析查詢 ?如何根據(jù)數(shù)據(jù)分析任務(wù)來選擇合適的數(shù)據(jù)分析工具 學(xué)習(xí)大綱: ?介紹 ?Hadoop基礎(chǔ) ?Pig基礎(chǔ) ?使用Pig進(jìn)行簡單數(shù)據(jù)分析 ?使用Pig處理復(fù)雜數(shù)據(jù) ?使用Pig分析處理多數(shù)據(jù)集 ?擴展Pig ?Pig排錯和優(yōu)化 ?Hive基礎(chǔ) ?使用Hive進(jìn)行數(shù)據(jù)分析 ?Hive數(shù)據(jù)管理 ?使用Hive分析處理文本數(shù)據(jù) ?Hive優(yōu)化 ?擴展Hive ?Impala基礎(chǔ) ?使用Impala進(jìn)行數(shù)據(jù)分析 ?如何選取數(shù)據(jù)分析工具 ?結(jié)論
招生對象: 課程長度:4天/24小時 課程描述: Hadoop、Yarn、Spark是企業(yè)構(gòu)建生產(chǎn)環(huán)境下大數(shù)據(jù)中心的關(guān)鍵技術(shù),也是大數(shù)據(jù)處理的核心技術(shù),是每個云計算大數(shù)據(jù)工程師必修課。 大數(shù)據(jù)時代的精髓技術(shù)在于Hadoop、Yarn、Spark,是大數(shù)據(jù)時代公司和個人必須掌握和使用的核心內(nèi)容。 Hadoop、Yarn、Spark是Yahoo!、阿里淘寶等公司公認(rèn)的大數(shù)據(jù)時代的三大核心技術(shù),是大數(shù)據(jù)處理的靈魂,是云計算大數(shù)據(jù)時代的技術(shù)命脈之所在,以Hadoop、Yarn、Spark為基石構(gòu)建起來云計算大數(shù)據(jù)中心廣泛運行于Yahoo!、阿里淘寶、騰訊、百度、Sohu、華為、優(yōu)酷土豆、亞馬遜等公司的生產(chǎn)環(huán)境中。 Hadoop、Yarn、Spark三者相輔相成 .Hadoop中的HDFS是大數(shù)據(jù)時代公認(rèn)的首選數(shù)據(jù)存儲方式; .Yarn是目前公認(rèn)的較佳的分布式集群資源管理框架; .Spark是目前公認(rèn)的大數(shù)據(jù)統(tǒng)一計算平臺; 工業(yè)和信息化部電信研究院于2014年5月發(fā)布的“大數(shù)據(jù)白皮書”中指出: “2012 年美國聯(lián)邦政府就在全球率先推出“大數(shù)據(jù)行動計劃(Big data initiative)”,重點在基礎(chǔ)技術(shù)研究和公共部門應(yīng)用上加大投入。在該計劃支持下,加州大學(xué)伯克利分校開發(fā)了完整的大數(shù)據(jù)開源軟件平臺“伯克利數(shù)據(jù)分析軟件棧(Berkeley Data Analytics Stack),其中的內(nèi)存計算軟件Spark的性能比Hadoop 提高近百倍,對產(chǎn)業(yè)界大數(shù)據(jù)技術(shù)走向產(chǎn)生巨大影響” ----來源:工業(yè)和信息化部電信研究院 Spark是繼Hadoop之后,成為替代Hadoop的下一代云計算大數(shù)據(jù)核心技術(shù)。目前SPARK已經(jīng)構(gòu)建了自己的整個大數(shù)據(jù)處理生態(tài)系統(tǒng),如流處理、圖技術(shù)、機器學(xué)習(xí)、Interactive Ad-Hoc Query等方面都有自己的技術(shù),并且是ApacheProject,可以預(yù)計的是2014年下半年到2015年在社區(qū)和商業(yè)應(yīng)用上會有爆發(fā)式的增長。 國外一些大型互聯(lián)網(wǎng)公司已經(jīng)部署了Spark。甚至連Hadoop的早期主要貢獻(xiàn)者Yahoo現(xiàn)在也在多個項目中部署使用Spark;國內(nèi)的淘寶、優(yōu)酷土豆、網(wǎng)易、Baidu、騰訊、皮皮網(wǎng)等已經(jīng)使用Spark技術(shù)用于自己的商業(yè)生產(chǎn)系統(tǒng)中,國內(nèi)外的應(yīng)用開始越來越廣泛。Spark正在逐漸走向成熟,并在這個領(lǐng)域扮演更加重要的角色。 剛剛結(jié)束的2014 Spark Summit上的信息,Spark已經(jīng)獲得世界20家公司的支持,這些公司中包括Intel、IBM等,同時更重要的是包括了較大的四個Hadoop發(fā)行商(Cloudera,Pivotal, MapR, Hortonworks)都提供了對非常強有力的支持Spark的支持,尤其是是Hadoop的頭號發(fā)行商Cloudera在2014年7月份宣布“Impala’s itfor interactive SQL on Hadoop; everything else will move to Spark”,具體鏈接信息 http://t.cn/Rvdsukb,而其實在這次SparkSummit之前,整個云計算大數(shù)據(jù)就已經(jīng)發(fā)聲巨變: 1,2014年5月24日Pivotal宣布了會把整個Spark stack包裝在Pivotal HD Hadoop發(fā)行版里面。這意味這較大的四個Hadoop發(fā)行商(Cloudera, Pivotal, MapR,Hortonworks)都提供了對Spark的支持。http://t.cn/RvLF7aM星火燎原的開始; 2,Mahout前一階段表示從現(xiàn)在起他們將不再接受任何形式的以MapReduce形式實現(xiàn)的算法,另外一方面,Mahout宣布新的算法基于Spark; 3,Cloudera的機器學(xué)習(xí)框架Oryx的執(zhí)行引擎也將由Hadoop的MapReduce替換成Spark; 4,Google已經(jīng)開始將負(fù)載從MapReduce轉(zhuǎn)移到Pregel和Dremel上; 5,F(xiàn)aceBook則將原來使用Hadoop的負(fù)載轉(zhuǎn)移到Presto上; 現(xiàn)在很多原來使用深度使用Hadoop的公司都在紛紛轉(zhuǎn)向Spark,國內(nèi)的淘寶是典型的案例,國外的典型是Yahoo!,我們以使用世界上使用Hadoop較典型的公司Yahoo!為例,大家可以從Yahoo!的數(shù)據(jù)處理的架構(gòu)圖看出Yahoo!內(nèi)部正在使用Spark: 不得不提的是Spark的“One stack torule them all”的特性,Spark的特點之一就是用一個技術(shù)堆棧解決云計算大數(shù)據(jù)中流處理、圖技術(shù)、機器學(xué)習(xí)、交互式查詢、誤差查詢等所有的問題,此時我們只需要一個技術(shù)團(tuán)隊通過Spark就可以搞定一切問題,而如果基于Hadoop就需要分別構(gòu)建實時流處理團(tuán)隊、數(shù)據(jù)統(tǒng)計分析團(tuán)隊、數(shù)據(jù)挖掘團(tuán)隊等,而且這些團(tuán)隊之間無論是代碼還是經(jīng)驗都不可相互借鑒,會形成巨大的成本,而使用Spark就不存在這個問題; 伴隨Spark技術(shù)的普及推廣,對專業(yè)人才的需求日益增加。Spark專業(yè)人才在未來也是炙手可熱,作為Spark人員,需要掌握的技能模型如下: 學(xué)員基礎(chǔ): 對云計算有強烈的興趣,能夠看懂基本的Java語法。 培訓(xùn)對象: 1.對云計算、分布式數(shù)據(jù)存儲于處理、大數(shù)據(jù)等感興趣的朋友 2.傳統(tǒng)的數(shù)據(jù)庫,例如Oracle、MaySQL、DB2等的管理人員 3.Java、C等任意一門編程語言的開發(fā)者; 4.網(wǎng)站服務(wù)器端的開發(fā)人員 5.在校大學(xué)生、中專生或者剛畢業(yè)的學(xué)生 6.云計算大數(shù)據(jù)從業(yè)者; 7.熟悉Hadoop生態(tài)系統(tǒng),想了解和學(xué)習(xí)Hadoop與Spark整合在企業(yè)應(yīng)用實戰(zhàn)案例的朋友; 8.系統(tǒng)架構(gòu)師、系統(tǒng)分析師、高級程序員、資深開發(fā)人員; 9.牽涉到大數(shù)據(jù)處理的數(shù)據(jù)中心運行、規(guī)劃、設(shè)計負(fù)責(zé)人; 10.政府機關(guān),金融保險、移動和互聯(lián)網(wǎng)等大數(shù)據(jù)來源單位的負(fù)責(zé)人; 11.高校、科研院所涉及到大數(shù)據(jù)與分布式數(shù)據(jù)處理的項目負(fù)責(zé)人; 12.數(shù)據(jù)倉庫管理人員、建模人員,分析和開發(fā)人員、系統(tǒng)管理人員、數(shù)據(jù)庫管理人員以及對數(shù)據(jù)倉庫感興趣的其他人員; 課程目標(biāo): 直接上手Hadoop工作,具備直接勝任Hadoop開發(fā)工程師的能力;輕松駕馭以Spark為核心的云計算大數(shù)據(jù)實戰(zhàn)技術(shù),從容解決95%以上的云計算大數(shù)據(jù)業(yè)務(wù)需求; ?徹底理解Hadoop 代表的云計算實現(xiàn)技術(shù)的能力 ?具備開發(fā)自己網(wǎng)盤的能力 ?具備修改HDFS具體源碼實現(xiàn)的能力 ?從代碼的角度剖析MapReduce執(zhí)行的具體過程并具備開發(fā)MapReduce代碼的能力 ?具備掌握Hadoop如何把HDFS文件轉(zhuǎn)化為Key-Value讓供Map調(diào)用的能力 ?具備掌握MapReduce內(nèi)部運行和實現(xiàn)細(xì)節(jié)并改造MapReduce的能力 ?掌握Spark的企業(yè)級開發(fā)的所有核心內(nèi)容,包括Spark集群的構(gòu)建,Spark架構(gòu)設(shè)計、Spark內(nèi)核剖析、Shark、Spark SQL、Spark Streaming、圖計 算GraphX、機器學(xué)習(xí)等; ?掌握Spark和Hadoop協(xié)同工作,能夠通過Spark和Hadoop輕松應(yīng)對大數(shù)據(jù)的業(yè)務(wù)需求; ?掌握企業(yè)線上生產(chǎn)系統(tǒng)中應(yīng)用Spark /Hadoop成功案例,以及與現(xiàn)有企業(yè)BI平臺整合的方案; 培訓(xùn)職業(yè)目標(biāo): ?Hadoop工程師,能夠開發(fā)的Hadoop分布式應(yīng)用 ?Hadoop完整項目的分析、開發(fā)、部署的全過程的能力 ?Spark高級工程師 ?大數(shù)據(jù)項目總負(fù)責(zé)人 ?云計算大數(shù)據(jù)CTO 培訓(xùn)內(nèi)容: 時間 內(nèi)容 天 第1個主題:Hadoop三問(徹底理解Hadoop) 1、 Hadoop為什么是云計算分布式大數(shù)據(jù)的事實開源標(biāo)準(zhǔn)軟件框架? 2、Hadoop的具體是如何工作? 3、Hadoop的生態(tài)架構(gòu)和每個模塊具體的功能是什么? 第2個主題:Hadoop集群與管理(具備構(gòu)建并駕馭Hadoop集群能力) 1、 Hadoop集群的搭建 2、 Hadoop集群的監(jiān)控 3、 Hadoop集群的管理 4、集群下運行MapReduce程序 第3主題:徹底掌握HDFS(具備開發(fā)自己網(wǎng)盤的能力) 1、HDFS體系架構(gòu)剖析 2、NameNode、DataNode、SecondaryNameNode架構(gòu) 3、保證NodeName高可靠性較佳實踐 4、DataNode中Block劃分的原理和具體存儲方式 5、修改Namenode、DataNode數(shù)據(jù)存儲位置 6、使用CLI操作HDFS 7、使用Java操作HDFS 第4主題:徹底掌握HDFS(具備修改HDFS具體源碼實現(xiàn)的能力) 1、RPC架構(gòu)剖析 2、源碼剖析Hadoop構(gòu)建于RPC之上 3、源碼剖析HDFS的RPC實現(xiàn) 4、源碼剖析客戶端與與NameNode的RPC通信 第二天 第1個主題:徹底掌握MapReduce(從代碼的角度剖析MapReduce執(zhí)行的具體過程并具備開發(fā)MapReduce代碼的能力) 1、MapReduce執(zhí)行的經(jīng)典步驟 2、wordcount運行過程解析 3、Mapper和Reducer剖析 4、自定義Writable 5、新舊API的區(qū)別以及如何使用就API 6、把MapReduce程序打包成Jar包并在命令行運行 第2個主題:徹底掌握MapReduce(具備掌握Hadoop如何把HDFS文件轉(zhuǎn)化為Key-Value讓供Map調(diào)用的能力) 1、 Hadoop是如何把HDFS文件轉(zhuǎn)化為鍵值對的? 2、源碼剖析Hadoop讀取HDFS文件并轉(zhuǎn)化為鍵值對的過程實現(xiàn) 3、源碼剖析轉(zhuǎn)化為鍵值對后供Map調(diào)用的過程實現(xiàn) 第3個主題:徹底掌握MapReduce(具備掌握MapReduce內(nèi)部運行和實現(xiàn)細(xì)節(jié)并改造MapReduce的能力) 1、 Hadoop內(nèi)置計數(shù)器及如何自定義計數(shù)器 2、 Combiner具體的作用和使用以及其使用的限制條件 3、 Partitioner的使用較佳實踐 4、 Hadoop內(nèi)置的排序算法剖析 5、自定義排序算法 6、 Hadoop內(nèi)置的分組算法 7、自定義分組算法 8、MapReduce常見場景和算法實現(xiàn) 第4個主題:某知名電商公司Hadoop實施全程揭秘(具備掌握商業(yè)級別Hadoop的分析、開發(fā)、部署的全過程的能力) 通過電商公司現(xiàn)場案例展示商業(yè)級別一個完整項目的分析、開發(fā)、部署的全過程 第三天 第1個主題:YARN(具備理解和使用YARN的能力) 1、YARN的設(shè)計思想 2、YARN的核心組件 3、YARN的共組過程 4、YARN應(yīng)用程序編寫 第2個主題:ResourceManager深度剖析(具備深刻理解ResourceManager的能力) 1、ResourceManager的架構(gòu) 2、ClientRMService 與AdminService 3、NodeManager 4、Container 5、 Yarn的 HA機制 第3個主題:NodeManager深度剖析(具備掌握NodeManager及Container的能力) 1、 NodeManager架構(gòu) 2、 ContainerManagement 3、 Container lifecycle 4、 資源管理與隔離 第4堂課:Spark的架構(gòu)設(shè)計(具備掌握Spark架構(gòu)的能力) 1.1 Spark生態(tài)系統(tǒng)剖析 1.2 Spark的架構(gòu)設(shè)計剖析 1.3 RDD計算流程解析 1.4 Spark的出色容錯機制 第四天 第1堂課:深入Spark內(nèi)核 1 Spark集群 2 任務(wù)調(diào)度 3 DAGScheduler 4 TaskScheduler 5 Task內(nèi)部揭秘 第2堂課:SparkSQL 1 Parquet支持 2 DSL 3 SQL on RDD 第3堂課:Spark的機器學(xué)習(xí) 1 LinearRegression 2 K-Means 3 Collaborative Filtering 第4堂課:Spark的圖計算GraphX 1 Table Operators 2 Graph Operators 3 GraphX
招生對象: 課程長度:10天/60小時 培訓(xùn)對象: 企業(yè)管理者、CIO、CTO、政府信息部門官員、項目(開發(fā))經(jīng)理、顧問;IT經(jīng)理,IT顧問,IT支持專家;系統(tǒng)工程師、數(shù)據(jù)中心管理員、云計算管理員及想加入云計算隊伍的您。 學(xué)員基礎(chǔ): 計算機相關(guān)專業(yè);具備基本Linux系統(tǒng)管理經(jīng)驗;具備編程經(jīng)驗的開發(fā)人員;熟悉Java;不需要事先掌握Hadoop相關(guān)知識 課程目標(biāo): 通過考試可獲得Cloudera Certified Administrator for Apache Hadoop (CCAH) ;Cloudera Certified Developer for Apache Hadoop (CCDH) 證書 培訓(xùn)內(nèi)容: 主題 內(nèi)容 Hadoop基礎(chǔ) 初識Hadoop及其分布式文件系統(tǒng) 【主要內(nèi)容】Hadoop是什么,Hadoop可以做什么,Hadoop的分布式文件系統(tǒng)(HDFS)及其特點,HDFS如何承載應(yīng)用 搭建偽分布式的Hadoop環(huán)境 【主要內(nèi)容】如何利用一臺Linux機器搭建你的個Hadoop環(huán)境?如何從Hadoop的日志中發(fā)現(xiàn)它的故障、異常等 開發(fā)你的個MapReduce程序 【主要內(nèi)容】函式編程與MapReduce,MapReduce程序的主題結(jié)構(gòu),在Eclipse上搭建MapReduce開發(fā)環(huán)境,如何運行你的MapReduce程序,用ANT自動化MapReduce程序的部署 在企業(yè)內(nèi)網(wǎng)中快速搭建真正分布式的Hadoop環(huán)境 【主要內(nèi)容】如何在企業(yè)內(nèi)網(wǎng)中快速搭建一個真正的分布式的Hadoop環(huán)境?涉及YUM源,部署腳本等。 HIVE基礎(chǔ)與實踐 【主要內(nèi)容】HIVE的架構(gòu)和實現(xiàn)方式,HIVE Metastore的類型和實現(xiàn)方式,HQL語言基礎(chǔ),如何用HIVE做大數(shù)據(jù)分析等 深入解析HDFS 深度解析HDFS系統(tǒng)配置 【主要內(nèi)容】HDFS及Linux中與HDFS相關(guān)的配置項詳解,常用的HDFS必配項及其在實踐中的設(shè)置方法 玩轉(zhuǎn)HDFS 【主要內(nèi)容】如何管理和維護(hù)HDFS,查找HDFS的基本命令,如何獲取幫助,HDFS中的兩個較常用命令集——dfs和dfsadmin 深度解析HDFS的五大關(guān)鍵特性 【主要內(nèi)容】EditLog、Checkpoint、Rebalance、Rack Awareness和Replication 深度解析HDFS的讀寫過程和性能優(yōu)化 【主要內(nèi)容】HDFS在文件讀寫過程(結(jié)合HDFS源代碼),HDFS的租約機制與無鎖讀寫特性,如何從操作系統(tǒng)、磁盤、文件系統(tǒng)和網(wǎng)絡(luò)等幾個層面來優(yōu)化的HDFS性能 Trouble Shooting HDFS 【主要內(nèi)容】HDFS的常見問題,Namenode的常見問題及其處理方法,元數(shù)據(jù)損壞時如何恢復(fù),Datanode的常見問題及其處理方法 深入淺出Zookeeper 【主要內(nèi)容】Paxos與Google的分布式協(xié)同機制,Chubby與Zookeeper,Zookeeper的原理、部署方法和應(yīng)用技巧 Hadoop HA理論與實踐 【主要內(nèi)容】Hadoop HA的前世今生,Hadoop HA中是否存在數(shù)據(jù)丟失的風(fēng)險,Hadoop2中的兩種HA方式——QJM和NFS,QJM方案配置演示 HDFS RAID與HttpFS 案例分析:制作基于HDFS的對象存儲 深入解析MapReduce 深度刨析JobTracker和TaskTracker 【主要內(nèi)容】JobTracker和TaskTracker的工作原理詳解 MapReduce經(jīng)典案例刨析與開發(fā)思想 【主要內(nèi)容】函式編程的回顧與深化,MapReduce典型程序分析:Wordcount、Top-k與Join 定制你的MapReduce 【主要內(nèi)容】Inputformat、OutputFormat和Partitioner等 讓MapReduce程序飛速運行(一) 【主要內(nèi)容】深度解析Split、Sort、Shuffling、Merge四大MapReducce程序執(zhí)行過程中所經(jīng)歷的四大關(guān)鍵過程,如何利用這4大過程來優(yōu)化MapReduce程序 讓MapReduce程序飛速運行(二) 【主要內(nèi)容】Combiner原理及其在MapReduce中的作用,MapReduce實際案例分析 MapReduce程序開發(fā)的高級技巧 【主要內(nèi)容】用Python等第三方語言快速編寫MapReduce程序、自動串接多個Mapper和Reducer、容忍一定程度的失敗任務(wù)和錯誤記錄等 進(jìn)一步玩轉(zhuǎn)MapReduce的平臺級優(yōu)化 【主要內(nèi)容】MapReduce程序的主要性能瓶頸及各種“坑”,MapReduce的主要性能配置項及其配置方法 YARN和MRv2選講 案例分析:挖掘運營商中的大數(shù)據(jù)
招生對象: 課程長度:3天 培訓(xùn)對象: 需要使用Apache Spark來開發(fā)功能強大的數(shù)據(jù)分析應(yīng)用的程序開發(fā)人員和大數(shù)據(jù)工程師。 學(xué)員基礎(chǔ): 本課程使用Scala和Python進(jìn)行講解。學(xué)員需至少掌握這兩種編程語言的其中一種,具備面向?qū)ο蟮木幊袒A(chǔ)及經(jīng)驗。掌握基本的Linux技能,無需Hadoop方面的基礎(chǔ)和經(jīng)驗。 培訓(xùn)內(nèi)容: ?使用Spark的動機 ?Spark基礎(chǔ) ?Resilient Distributed Datasets (RDDs) ?HDFS ?在機群環(huán)境下運行Spark ?Spark并發(fā)處理 ?Caching和Persistence ?編寫Spark應(yīng)用 ?集成Spark、Hadoop到企業(yè)數(shù)據(jù)中心 ?Spark Streaming ?常用Spark算法舉例 ?Spark性能 教學(xué)大綱: ?介紹 ?傳統(tǒng)大規(guī)模系統(tǒng)的問題 ?Spark簡介 ?Spark Shell ?RDDs ?Spark函數(shù)式編程 ?RDD操作 ?鍵-值對型RDD ?MapReduce和鍵-值對型RDD操作 ?HDFS體系結(jié)構(gòu) ?如何使用HDFS ?Spark機群 ?Spark機群Web UI ?RDD分區(qū)和HDFS數(shù)據(jù)本地化 ?使用分區(qū)并行處理 ?RDD Lineage ?Caching和Persistence ?編寫Spark應(yīng)用 ?創(chuàng)建SparkContex ?配置Spark屬性 ?生成和運行Spark應(yīng)用程序 ?日志 ?Spark和Hadoop生態(tài)系統(tǒng) ?Spark和MapReduce ?Spark流處理 ?Streaming單詞計數(shù)舉例 ?Streaming操作 ?滑動窗口Streaming操作 ?編寫Spark流處理應(yīng)用 ?迭代算法 ?圖處理分析 ?機器學(xué)習(xí) ?共享變量:Broadcast變量 ?共享變量:Accumulators ?常見性能問題
大數(shù)據(jù)時代培訓(xùn)中心 大數(shù)據(jù)培訓(xùn)核心優(yōu)勢 大數(shù)據(jù)時代培訓(xùn)中心,cloudera授權(quán)中國區(qū)培訓(xùn)合作伙伴 國內(nèi)Hadoop培訓(xùn)行業(yè)領(lǐng)導(dǎo)者,Hadoop大數(shù)據(jù)人才的培養(yǎng)基地,國內(nèi)O2O模式大數(shù)據(jù)人才培訓(xùn)機構(gòu)。 大數(shù)據(jù)培訓(xùn)機構(gòu)簡介 [詳情]
|
學(xué)校首頁| 學(xué)校簡介| 課程列表| 學(xué)校新聞| 學(xué)校相冊| 教師團(tuán)隊| 聯(lián)系我們
大數(shù)據(jù)時代培訓(xùn)中心課程請咨詢:
滬ICP備18048269號-1
電子營業(yè)執(zhí)照
教育
全國教育網(wǎng)站
企業(yè)信用等級AA級
合作/版權(quán)/投訴
本頁信息由注冊用戶(機構(gòu)和個人)自行發(fā)布或提供,所有內(nèi)容僅供參考,任何關(guān)于對該用戶的推薦都不能替代您的考察核實,本站不承擔(dān)該用戶發(fā)布/提供信息的行為或內(nèi)容所引起的法律責(zé)任