全套服務(wù)(在線、面授均享)
1、面授+遠程+錄播
2、24小時遠程真機練習
3、行業(yè)專家講師親臨授課
4、每班一名班主任督學
5、一年半免費重聽學習
通過Cloudera公司提供的數(shù)據(jù)科學培訓和認證,將您的知識提升到一個新的水平。
數(shù)據(jù)科學家?guī)椭?、企事業(yè)單位及科研院校創(chuàng)建大數(shù)據(jù)時代的新型信息平臺,用于對海量數(shù)據(jù)進行深度挖掘、從中提取有用的信息,用于回答以前無法解決甚至是無法想象的問題。
學員將學習數(shù)據(jù)科學家是如何使用Hadoop和Spark技術(shù)來幫助企業(yè)改進現(xiàn)有產(chǎn)品、開發(fā)新產(chǎn)品新應(yīng)用,留住用戶并開拓市場,降低成本,提高收益,發(fā)現(xiàn)和帶來新的商業(yè)機會。
Cloudera大學為期3天的數(shù)據(jù)科學家課程幫助學員理解什么是數(shù)據(jù)科學家,他們解決什么樣的問題,以及使用何種高效工具和新技術(shù)。通過課堂模擬,學員學會如何運用數(shù)據(jù)科學的方法來應(yīng)對并解決現(xiàn)實中來自不同行業(yè)的挑戰(zhàn),為以后勝任數(shù)據(jù)科學家的角色做好準備。
一. 培訓內(nèi)容
通過講師在課堂上的講解,以及實操練習,學員將學習以下內(nèi)容:
如何獲取、清洗和綜合來自不同數(shù)據(jù)源的數(shù)據(jù),為分析提供統(tǒng)一全面的視圖。
了解用于從海量數(shù)據(jù)探索潛在商業(yè)價值的統(tǒng)計方法。
掌握何時將Hadoop streaming 和Apache Spark 嵌入搭建數(shù)據(jù)科學所需的數(shù)據(jù)產(chǎn)品流水線中去。
了解數(shù)據(jù)科學項目所需的機器學習技術(shù)。
如何使用SparkMLlib實現(xiàn)和管理推薦系統(tǒng),如何設(shè)置和評估結(jié)果。
了解將新開發(fā)的分析項目部署到大規(guī)模產(chǎn)品環(huán)境中可能碰到的擴展能力問題及如何規(guī)避。
二. 培訓對象及學員基礎(chǔ)
本課程面向軟件開發(fā)人員、大數(shù)據(jù)工程師以及高級數(shù)據(jù)分析人員。學員需掌握使用Linux環(huán)境的基本技能,建議具備Hadoop方面的基本知識或經(jīng)驗:HDFS,MapReduce,HadoopStreaming,以及ApacheHive等,并能熟練使用至少一種腳本編程語言,建議Python,或者熟悉其他語言譬如Perl或Ruby。
三. 數(shù)據(jù)科學家認證
在完成本課程的學習后,我們鼓勵培訓學員繼續(xù)深造并注冊參加Cloudera認證專家:數(shù)據(jù)科學家(CCP:DS)考試。獲得該認證可以讓學員脫穎而出;它可以幫助學員成為該領(lǐng)域的精英,并向雇主和客戶提供與您的專業(yè)知識相關(guān)的確鑿證據(jù)。
四. 課程大綱
1. 引言
課程簡介
Cloudera簡介
課程安排
介紹
2. 數(shù)據(jù)科學概述
什么是數(shù)據(jù)科學?
數(shù)據(jù)科學日益增長的需求
數(shù)據(jù)科學家的角色
3. 使用案例
金融行業(yè)
零售行業(yè)
廣告行業(yè)
國防和情報行業(yè)
電信及公用事業(yè)行業(yè)
醫(yī)療健康及制藥行業(yè)
4. 項目生命周期
項目生命周期的流程步驟
實操練習應(yīng)用場景說明
5. 數(shù)據(jù)采集
從哪里獲取數(shù)據(jù)
數(shù)據(jù)采集技術(shù)
6. 評估輸入數(shù)據(jù)
數(shù)據(jù)格式
數(shù)據(jù)容量
數(shù)據(jù)質(zhì)量
7. 數(shù)據(jù)轉(zhuǎn)換
文件格式轉(zhuǎn)換
連接數(shù)據(jù)集
數(shù)據(jù)匿名化
8. 數(shù)據(jù)分析和統(tǒng)計方法
統(tǒng)計與概率之間的關(guān)系
描述性統(tǒng)計
推理性統(tǒng)計
向量和矩陣
9. 機器學習的基礎(chǔ)知識
概述
機器學習的3C分類
數(shù)據(jù)和算法的重要性
聚焦:樸素貝葉斯分類器
10. 推薦系統(tǒng)概述
什么是推薦系統(tǒng)
協(xié)同過濾的類型
推薦系統(tǒng)的局限性
基本概念
11. Apache Spark和MLlib簡介
什么是Apache Spark ?
和MapReduce的比較
Apache Spark基礎(chǔ)知識
Spark的MLlib Package
12. 通過MLlib實現(xiàn)推薦系統(tǒng)
針對潛在因子推薦系統(tǒng)的ALS方法概述
ALS推薦系統(tǒng)超參數(shù)
在MLlib中構(gòu)建推薦系統(tǒng)
調(diào)整超參數(shù)
加權(quán)
13. 實驗和評估
設(shè)計有效的實驗
進行有效的實驗
推薦系統(tǒng)的用戶界面
14. 生產(chǎn)部署和超越
生產(chǎn)部署
提升數(shù)據(jù)產(chǎn)品擴展能力技巧和技術(shù)
結(jié)果匯總和可視化
如何改進
推薦系統(tǒng)未來展望
15. 總結(jié)
Cloudera大數(shù)據(jù)課程體系