
Hadoop大數(shù)據(jù)開發(fā)實戰(zhàn)課程大綱
本課程將讓學員掌握 Hadoop 架構(gòu)原理和 使用場景,通過項目實戰(zhàn)鍛煉,獨立規(guī)劃及部署生產(chǎn)環(huán)境的Hadoop集群,掌握Hadoop基本運維思路和方法,對Hadoop集群進行管理和優(yōu)化,熟練使用Hadoop進行MapReduce程序開發(fā)。
技術(shù)儲備階段
Hadoop以及相關(guān)模塊實操
Hadoop介紹
hadoop分為運維和開發(fā):
運維一般是搭建集群環(huán)境,調(diào)優(yōu)集群,保證集群良好運行;開發(fā)就是通過運行mapreduce等程序,讓他完成我們想讓hadoop集群完成的事情。
本章節(jié)將讓學員了解Hadoop,把握分布式計算框架及未來發(fā)展方向,在大數(shù)據(jù)時代能為企業(yè)的技術(shù)選型及架構(gòu)設(shè)計提供決策參考。
數(shù)據(jù)倉庫HIVE
Hive是大數(shù)據(jù)開發(fā)的核心工具,本章詳解數(shù)據(jù)倉庫HIVE,讓學員了解并掌握Hadoop的數(shù)據(jù)倉庫原理和運行機制。
分布式數(shù)據(jù)庫Hbase
Hadoop介紹
計算模型MapReduce
Spark項目入門與提高
分布式文件系統(tǒng)HDFS體系結(jié)構(gòu)
分布式協(xié)作系統(tǒng)ZooKeeper
Scala介紹
Spark平臺下的機器學習
Spark項目編譯
Hbase是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統(tǒng),本章將詳細講解Hbase體系及存儲機制
是一個用來將Hadoop和關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)相互轉(zhuǎn)移的工具,是不同類型數(shù)據(jù)庫互操作的重要應(yīng)用工具。
MapReduce能夠讓用戶編寫的Hadoop并行應(yīng)用程序運行更加簡化高效,本章節(jié)將讓學員學習軟件的執(zhí)行原理,并通過實際編寫練習掌握
MapReduce
是用來解決分布式應(yīng)用中經(jīng)常遇到的一些數(shù)據(jù)管理問題,簡化分布式應(yīng)用協(xié)調(diào)及其管理的難度,提供高性能的分布式服務(wù);本章節(jié)將介紹ZooKeeper原理和基本操作。
Hadoop中的分布式文件系統(tǒng)HDFS能夠?qū)崿F(xiàn)數(shù)據(jù)在計算機集群組成的云上高效的存儲和管理,是hadoop中核心體系,本章將讓學員通過理論及實際操作了解HDFS的體系結(jié)構(gòu)和操作規(guī)范。
Spark是應(yīng)對實時查詢和迭代計算的有力工具,本章幫助學員了解并掌握Spark的原理,開發(fā)環(huán)境的搭建,掌握各個算法的使用場景與適用范圍
作為流計算技術(shù)中的佼佼者和主流的Storm被譽為實時版的Hadoop,本章節(jié)將詳細介紹Storm,讓學員了解并掌握分布式實時大數(shù)據(jù)處理工具, 彌補hadoop在實時數(shù)據(jù)上的不足。
Spark在機器學習方面有著得天獨厚的優(yōu)勢,特別適合需要多次迭代計算的算法。
Scala在大數(shù)據(jù),云計算方面有較為廣泛的運用,而且由于Spark是由Scala語言開發(fā)的,所以大家在開發(fā)Spark應(yīng)用程序時,Scala成為必學語言之一。
Hadoop項目實戰(zhàn)
行業(yè)案例實戰(zhàn)
通過真實企業(yè)案例,讓學員從理論到實踐上都能掌握大數(shù)據(jù)企業(yè)開發(fā)必備技能,為就業(yè)打下堅實理論與實戰(zhàn)基礎(chǔ)。