特訓(xùn)營·第 1 計劃·(階段一)
標(biāo)準(zhǔn)庫,擴展庫,運算符,表達(dá)式,字符串、轉(zhuǎn)義字
符,字符串的輸出和輸入,訪問字符串中的值,字符
串內(nèi)建函數(shù);列表,包括列表訪問,列表運算,深拷
貝/淺拷貝,列表常用的方法;字典,集合,條件表
達(dá)式,選擇結(jié)構(gòu),包括while循環(huán),break語句,for in
循環(huán),range函數(shù),continue語句;
函數(shù)參數(shù),變量作用域,lambda,生成器;
類的定義,使用,數(shù)據(jù)成員,成員方法,特殊方法,運算符重
載;
numpy,包括NumPy 數(shù)學(xué)函數(shù),NumPy 統(tǒng)計函數(shù),
NumPy 矩陣庫(Matrix) ,NumPy 排序、條件刷選
函數(shù),NumPy 線性代數(shù),數(shù)組運算,矩陣運算,
scipy,pandas,如Pandas數(shù)據(jù)結(jié)構(gòu),Pandas數(shù)據(jù)
幀(DataFrame),Pandas面板,包括Pandas基本應(yīng)
用,Pandas描述性統(tǒng)計,Pandas函數(shù)應(yīng)用,Pandas
重建索引,Pandas迭代,Pandas統(tǒng)計函數(shù);
特訓(xùn)營·第 2 計劃·(階段二)
Pandas 讀取數(shù)據(jù), scikit-learn 訓(xùn)練與測試模型;
評估模型性能的指標(biāo);
交叉驗證(把給定的數(shù)據(jù)進(jìn)行切分,將切分的數(shù)據(jù)集分
為“訓(xùn)練集”和“驗證集”(假設(shè)其中4份為train,1
份為validation),在此基礎(chǔ)上循環(huán)選取進(jìn)行訓(xùn)練
和驗證。曲線判斷過欠擬合,用網(wǎng)絡(luò)搜索訓(xùn)練模型;
測試 NumPy 、 pandas 技能的掌握;
測試對模型評估與驗證的理解;
特訓(xùn)營·第 3 計劃·(階段三)
分類與回歸的區(qū)別,學(xué)習(xí)使用線性回歸來做預(yù)測;
Iris經(jīng)典愛麗絲,愛麗絲進(jìn)化與文本矢量化,AI操作
流程,數(shù)據(jù)切割函數(shù),Iris愛麗絲分解,線性回歸算
法,邏輯回歸算法;
樸素貝葉斯原理,樸素貝葉斯算法,KNN近鄰算法
,隨機森林算法,構(gòu)建垃圾郵件分類器;
決策樹算法,GBDT迭代決策樹算法,SVM向量機
,SVM-cross向量機交叉算方法,神經(jīng)網(wǎng)絡(luò)算法,
MLP神經(jīng)網(wǎng)絡(luò)算法,MLP_reg神經(jīng)網(wǎng)絡(luò)回歸算法,
探索泰坦尼克號乘客存活模型;
支持向量機以線性分離數(shù)據(jù);
非線性可分的數(shù)據(jù)上來訓(xùn)練 SVM;
boosting 提升傳統(tǒng)方法;Adaboost,CCPP數(shù)據(jù)
集,數(shù)據(jù)集切割,讀取CCPP數(shù)據(jù)集,機器學(xué)習(xí)統(tǒng)一
接口,批量調(diào)用機器學(xué)習(xí)算法,一體化調(diào)用,存儲算
法模型,批量存儲算法模型,批量加載算法模型,機
器組合算法;
監(jiān)督學(xué)習(xí)測試題;
特訓(xùn)營·第 4 計劃·(階段四)
聚類算法,k-means 對數(shù)據(jù)聚類;
k-means,K均值聚類算法是先隨機選取K個對象作為
初始的聚類中心。計算每個對象與各個種子聚類中心
之間的距離,把每個對象分配給距離它最近的聚類中
心,對電影評分聚類;
單連接聚類法、層次聚類法,通過某種相似性測度計
算節(jié)點之間的相似性;DBSCAN,Density-Based
Spatial Clustering of Applications with Nois是一
個比較有代表性的基于密度的聚類算法;
高斯混合模型、高斯概率密度函數(shù)、正態(tài)分布曲線及
相關(guān)示例;
通過案例學(xué)習(xí)特征縮放;
降維,PCA 的原理(PCA降維原理是基于訓(xùn)練數(shù)據(jù)集
X的協(xié)方差矩陣C的特征向量組成的K階矩陣U,XU得
到X的k階降維矩陣Z。主要原理用的是協(xié)方差矩陣C
是一個實對角矩陣的性質(zhì)和使用場景;
特征臉方法、 SVM 臉部識別,使用預(yù)處理來提取更
有意義的特征。這里使用主成份分析來提取150個基
本元素,然后將其提供給支持向量機分類器,將這個
預(yù)處理和分類器打包成管道;
隨機投影(隨機投影的理論依據(jù)是J-L Lemma,公式
的核心思想總結(jié)一句話就是:
在高維歐氏空間里的點集映射到低維空間里相對距離
得到某誤差范圍內(nèi)的保持,獨立成分分析,Lab學(xué)習(xí)
應(yīng)用這些方法;
非監(jiān)督學(xué)習(xí)測試題;
特訓(xùn)營·第 5 計劃·(階段五)
深度學(xué)習(xí),這是機器學(xué)習(xí)中一種基于對數(shù)據(jù)進(jìn)行表
征學(xué)習(xí)的方法。觀測值(例如一幅圖像)可以使用
多種方式來表示,如每個像素強度值的向量,或者
更抽象地表示成一系列邊、特定形狀的區(qū)域等,而
使用某些特定的表情識別,包括softmax、one-hot
encoding和cross entropy感知器,與梯度下降;
神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),通過 backpropogation 來訓(xùn)練網(wǎng)
絡(luò)優(yōu)化神經(jīng)網(wǎng)絡(luò),如 regularization 與 dropout
使用 Keras 分析 IMDB 電影數(shù)據(jù);
卷積神經(jīng)網(wǎng)絡(luò)原理,卷積神經(jīng)網(wǎng)絡(luò),包括Convo-
lutional,Neural Networks, CNN,是一類包含
卷積計算且具有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò),F(xiàn)eed-
forward、Neural Netwo,是深度學(xué)習(xí)(deep
learning)的代表算法之一、圖像識別、keras、
遷移學(xué)習(xí);
深度學(xué)習(xí)在癌癥(如皮膚癌)檢測,將近13萬張可用
的皮膚病變圖像,覆蓋了2000多種不同的疾病類型。
他們使用這一數(shù)據(jù)集創(chuàng)建了圖像庫,并將其作為原
始像素提供給算法,每個像素都帶有標(biāo)簽,描述了相
關(guān)疾病的附加數(shù)據(jù)。研究人員訓(xùn)練算法總結(jié)出圖像里
的模式,也即發(fā)現(xiàn)疾病經(jīng)由組織傳播在外觀上所遵循
的規(guī)則;
特訓(xùn)營·第 6 計劃·(階段六)
強化學(xué)習(xí)(reinforcement learning),又稱再勵學(xué)習(xí)
、評價學(xué)習(xí),是一種重要的機器學(xué)習(xí)方法,在智能控
制機器人及分析預(yù)測等領(lǐng)域有許多應(yīng)用,與 OpenAI
Gym 的基礎(chǔ);
馬爾科夫決策過程策略,基于馬爾可夫過程理論的隨
機動態(tài)系統(tǒng)的優(yōu)決策過程;
馬爾可夫決策過程是序貫決策的主要研究領(lǐng)域,它是
馬爾可夫過程與確定性的動態(tài)規(guī)劃相結(jié)合的產(chǎn)物,又
稱馬爾科夫型隨機動態(tài)規(guī)劃,屬于運籌學(xué)中的數(shù)學(xué)規(guī)
劃的一個分支,推到Bellman方程;
迭代策略評估、策略改進(jìn)、策略迭代和值迭代;
蒙特卡洛預(yù)測,也叫蒙特卡羅(Monte Carlo)方法,
又稱隨機抽樣或統(tǒng)計試驗方法,控制方案、greedy算
法、epsilon-greedy算法;
Sarsa、Q-Learning 、預(yù)期 Sarsa;
解決 OpenAI Gym(OpenAI Gym 是一個用于開發(fā)
和比較RL 算法的工具包,與其他的數(shù)值計算庫兼容
,如tensorflow 或者theano 庫。現(xiàn)在主要支持的
是python 語言,以后將支持其他語言)的Taxi-v2
任務(wù);
傳統(tǒng)算法適用于連續(xù)空間;
深度神經(jīng)網(wǎng)絡(luò)將強化學(xué)習(xí)方法擴展到復(fù)雜問題;
基于策略的方法優(yōu)化優(yōu)策略;
基于價值、基于策略的方法,解決具有挑戰(zhàn)性的強化
學(xué)習(xí)問題;
強化學(xué)習(xí)相關(guān)的測試題;