全套服務(wù)(在線、面授均享)
1、面授+遠程+錄播
2、24小時遠程真機練習(xí)
3、行業(yè)專家講師親臨授課
4、每班一名班主任督學(xué)
5、一年半免費重聽學(xué)習(xí)
通過Cloudera公司提供的數(shù)據(jù)科學(xué)培訓(xùn)和認證,將您的知識提升到一個新的水平。
數(shù)據(jù)科學(xué)家?guī)椭?、企事業(yè)單位及科研院校創(chuàng)建大數(shù)據(jù)時代的新型信息平臺,用于對海量數(shù)據(jù)進行深度挖掘、從中提取有用的信息,用于回答以前無法解決甚至是無法想象的問題。
學(xué)員將學(xué)習(xí)數(shù)據(jù)科學(xué)家是如何使用Hadoop和Spark技術(shù)來幫助企業(yè)改進現(xiàn)有產(chǎn)品、開發(fā)新產(chǎn)品新應(yīng)用,留住用戶并開拓市場,降低成本,提高收益,發(fā)現(xiàn)和帶來新的商業(yè)機會。
Cloudera大學(xué)為期3天的數(shù)據(jù)科學(xué)家課程幫助學(xué)員理解什么是數(shù)據(jù)科學(xué)家,他們解決什么樣的問題,以及使用何種高效工具和新技術(shù)。通過課堂模擬,學(xué)員學(xué)會如何運用數(shù)據(jù)科學(xué)的方法來應(yīng)對并解決現(xiàn)實中來自不同行業(yè)的挑戰(zhàn),為以后勝任數(shù)據(jù)科學(xué)家的角色做好準備。
一. 培訓(xùn)內(nèi)容
通過講師在課堂上的講解,以及實操練習(xí),學(xué)員將學(xué)習(xí)以下內(nèi)容:
如何獲取、清洗和綜合來自不同數(shù)據(jù)源的數(shù)據(jù),為分析提供統(tǒng)一全面的視圖。
了解用于從海量數(shù)據(jù)探索潛在商業(yè)價值的統(tǒng)計方法。
掌握何時將Hadoop streaming 和Apache Spark 嵌入搭建數(shù)據(jù)科學(xué)所需的數(shù)據(jù)產(chǎn)品流水線中去。
了解數(shù)據(jù)科學(xué)項目所需的機器學(xué)習(xí)技術(shù)。
如何使用SparkMLlib實現(xiàn)和管理推薦系統(tǒng),如何設(shè)置和評估結(jié)果。
了解將新開發(fā)的分析項目部署到大規(guī)模產(chǎn)品環(huán)境中可能碰到的擴展能力問題及如何規(guī)避。
二. 培訓(xùn)對象及學(xué)員基礎(chǔ)
本課程面向軟件開發(fā)人員、大數(shù)據(jù)工程師以及高級數(shù)據(jù)分析人員。學(xué)員需掌握使用Linux環(huán)境的基本技能,建議具備Hadoop方面的基本知識或經(jīng)驗:HDFS,MapReduce,HadoopStreaming,以及ApacheHive等,并能熟練使用至少一種腳本編程語言,建議Python,或者熟悉其他語言譬如Perl或Ruby。
三. 數(shù)據(jù)科學(xué)家認證
在完成本課程的學(xué)習(xí)后,我們鼓勵培訓(xùn)學(xué)員繼續(xù)深造并注冊參加Cloudera認證專家:數(shù)據(jù)科學(xué)家(CCP:DS)考試。獲得該認證可以讓學(xué)員脫穎而出;它可以幫助學(xué)員成為該領(lǐng)域的精英,并向雇主和客戶提供與您的專業(yè)知識相關(guān)的確鑿證據(jù)。
四. 課程大綱
1. 引言
課程簡介
Cloudera簡介
課程安排
介紹
2. 數(shù)據(jù)科學(xué)概述
什么是數(shù)據(jù)科學(xué)?
數(shù)據(jù)科學(xué)日益增長的需求
數(shù)據(jù)科學(xué)家的角色
3. 使用案例
金融行業(yè)
零售行業(yè)
廣告行業(yè)
國防和情報行業(yè)
電信及公用事業(yè)行業(yè)
醫(yī)療健康及制藥行業(yè)
4. 項目生命周期
項目生命周期的流程步驟
實操練習(xí)應(yīng)用場景說明
5. 數(shù)據(jù)采集
從哪里獲取數(shù)據(jù)
數(shù)據(jù)采集技術(shù)
6. 評估輸入數(shù)據(jù)
數(shù)據(jù)格式
數(shù)據(jù)容量
數(shù)據(jù)質(zhì)量
7. 數(shù)據(jù)轉(zhuǎn)換
文件格式轉(zhuǎn)換
連接數(shù)據(jù)集
數(shù)據(jù)匿名化
8. 數(shù)據(jù)分析和統(tǒng)計方法
統(tǒng)計與概率之間的關(guān)系
描述性統(tǒng)計
推理性統(tǒng)計
向量和矩陣
9. 機器學(xué)習(xí)的基礎(chǔ)知識
概述
機器學(xué)習(xí)的3C分類
數(shù)據(jù)和算法的重要性
聚焦:樸素貝葉斯分類器
10. 推薦系統(tǒng)概述
什么是推薦系統(tǒng)
協(xié)同過濾的類型
推薦系統(tǒng)的局限性
基本概念
11. Apache Spark和MLlib簡介
什么是Apache Spark ?
和MapReduce的比較
Apache Spark基礎(chǔ)知識
Spark的MLlib Package
12. 通過MLlib實現(xiàn)推薦系統(tǒng)
針對潛在因子推薦系統(tǒng)的ALS方法概述
ALS推薦系統(tǒng)超參數(shù)
在MLlib中構(gòu)建推薦系統(tǒng)
調(diào)整超參數(shù)
加權(quán)
13. 實驗和評估
設(shè)計有效的實驗
進行有效的實驗
推薦系統(tǒng)的用戶界面
14. 生產(chǎn)部署和超越
生產(chǎn)部署
提升數(shù)據(jù)產(chǎn)品擴展能力技巧和技術(shù)
結(jié)果匯總和可視化
如何改進
推薦系統(tǒng)未來展望
15. 總結(jié)
Cloudera大數(shù)據(jù)課程體系