特訓(xùn)營·第 1 計(jì)劃·(階段一)
標(biāo)準(zhǔn)庫,擴(kuò)展庫,運(yùn)算符,表達(dá)式,字符串、轉(zhuǎn)義字
符,字符串的輸出和輸入,訪問字符串中的值,字符
串內(nèi)建函數(shù);列表,包括列表訪問,列表運(yùn)算,深拷
貝/淺拷貝,列表常用的方法;字典,集合,條件表
達(dá)式,選擇結(jié)構(gòu),包括while循環(huán),break語句,for in
循環(huán),range函數(shù),continue語句;
函數(shù)參數(shù),變量作用域,lambda,生成器;
類的定義,使用,數(shù)據(jù)成員,成員方法,特殊方法,運(yùn)算符重
載;
numpy,包括NumPy 數(shù)學(xué)函數(shù),NumPy 統(tǒng)計(jì)函數(shù),
NumPy 矩陣庫(Matrix) ,NumPy 排序、條件刷選
函數(shù),NumPy 線性代數(shù),數(shù)組運(yùn)算,矩陣運(yùn)算,
scipy,pandas,如Pandas數(shù)據(jù)結(jié)構(gòu),Pandas數(shù)據(jù)
幀(DataFrame),Pandas面板,包括Pandas基本應(yīng)
用,Pandas描述性統(tǒng)計(jì),Pandas函數(shù)應(yīng)用,Pandas
重建索引,Pandas迭代,Pandas統(tǒng)計(jì)函數(shù);
特訓(xùn)營·第 2 計(jì)劃·(階段二)
Pandas 讀取數(shù)據(jù), scikit-learn 訓(xùn)練與測(cè)試模型;
評(píng)估模型性能的指標(biāo);
交叉驗(yàn)證(把給定的數(shù)據(jù)進(jìn)行切分,將切分的數(shù)據(jù)集分
為“訓(xùn)練集”和“驗(yàn)證集”(假設(shè)其中4份為train,1
份為validation),在此基礎(chǔ)上循環(huán)選取進(jìn)行訓(xùn)練
和驗(yàn)證。曲線判斷過欠擬合,用網(wǎng)絡(luò)搜索訓(xùn)練模型;
測(cè)試 NumPy 、 pandas 技能的掌握;
測(cè)試對(duì)模型評(píng)估與驗(yàn)證的理解;
特訓(xùn)營·第 3 計(jì)劃·(階段三)
分類與回歸的區(qū)別,學(xué)習(xí)使用線性回歸來做預(yù)測(cè);
Iris經(jīng)典愛麗絲,愛麗絲進(jìn)化與文本矢量化,AI操作
流程,數(shù)據(jù)切割函數(shù),Iris愛麗絲分解,線性回歸算
法,邏輯回歸算法;
樸素貝葉斯原理,樸素貝葉斯算法,KNN近鄰算法
,隨機(jī)森林算法,構(gòu)建垃圾郵件分類器;
決策樹算法,GBDT迭代決策樹算法,SVM向量機(jī)
,SVM-cross向量機(jī)交叉算方法,神經(jīng)網(wǎng)絡(luò)算法,
MLP神經(jīng)網(wǎng)絡(luò)算法,MLP_reg神經(jīng)網(wǎng)絡(luò)回歸算法,
探索泰坦尼克號(hào)乘客存活模型;
支持向量機(jī)以線性分離數(shù)據(jù);
非線性可分的數(shù)據(jù)上來訓(xùn)練 SVM;
boosting 提升傳統(tǒng)方法;Adaboost,CCPP數(shù)據(jù)
集,數(shù)據(jù)集切割,讀取CCPP數(shù)據(jù)集,機(jī)器學(xué)習(xí)統(tǒng)一
接口,批量調(diào)用機(jī)器學(xué)習(xí)算法,一體化調(diào)用,存儲(chǔ)算
法模型,批量存儲(chǔ)算法模型,批量加載算法模型,機(jī)
器組合算法;
監(jiān)督學(xué)習(xí)測(cè)試題;
特訓(xùn)營·第 4 計(jì)劃·(階段四)
聚類算法,k-means 對(duì)數(shù)據(jù)聚類;
k-means,K均值聚類算法是先隨機(jī)選取K個(gè)對(duì)象作為
初始的聚類中心。計(jì)算每個(gè)對(duì)象與各個(gè)種子聚類中心
之間的距離,把每個(gè)對(duì)象分配給距離它最近的聚類中
心,對(duì)電影評(píng)分聚類;
單連接聚類法、層次聚類法,通過某種相似性測(cè)度計(jì)
算節(jié)點(diǎn)之間的相似性;DBSCAN,Density-Based
Spatial Clustering of Applications with Nois是一
個(gè)比較有代表性的基于密度的聚類算法;
高斯混合模型、高斯概率密度函數(shù)、正態(tài)分布曲線及
相關(guān)示例;
通過案例學(xué)習(xí)特征縮放;
降維,PCA 的原理(PCA降維原理是基于訓(xùn)練數(shù)據(jù)集
X的協(xié)方差矩陣C的特征向量組成的K階矩陣U,XU得
到X的k階降維矩陣Z。主要原理用的是協(xié)方差矩陣C
是一個(gè)實(shí)對(duì)角矩陣的性質(zhì)和使用場(chǎng)景;
特征臉方法、 SVM 臉部識(shí)別,使用預(yù)處理來提取更
有意義的特征。這里使用主成份分析來提取150個(gè)基
本元素,然后將其提供給支持向量機(jī)分類器,將這個(gè)
預(yù)處理和分類器打包成管道;
隨機(jī)投影(隨機(jī)投影的理論依據(jù)是J-L Lemma,公式
的核心思想總結(jié)一句話就是:
在高維歐氏空間里的點(diǎn)集映射到低維空間里相對(duì)距離
得到某誤差范圍內(nèi)的保持,獨(dú)立成分分析,Lab學(xué)習(xí)
應(yīng)用這些方法;
非監(jiān)督學(xué)習(xí)測(cè)試題;
特訓(xùn)營·第 5 計(jì)劃·(階段五)
深度學(xué)習(xí),這是機(jī)器學(xué)習(xí)中一種基于對(duì)數(shù)據(jù)進(jìn)行表
征學(xué)習(xí)的方法。觀測(cè)值(例如一幅圖像)可以使用
多種方式來表示,如每個(gè)像素強(qiáng)度值的向量,或者
更抽象地表示成一系列邊、特定形狀的區(qū)域等,而
使用某些特定的表情識(shí)別,包括softmax、one-hot
encoding和cross entropy感知器,與梯度下降;
神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),通過 backpropogation 來訓(xùn)練網(wǎng)
絡(luò)優(yōu)化神經(jīng)網(wǎng)絡(luò),如 regularization 與 dropout
使用 Keras 分析 IMDB 電影數(shù)據(jù);
卷積神經(jīng)網(wǎng)絡(luò)原理,卷積神經(jīng)網(wǎng)絡(luò),包括Convo-
lutional,Neural Networks, CNN,是一類包含
卷積計(jì)算且具有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò),F(xiàn)eed-
forward、Neural Netwo,是深度學(xué)習(xí)(deep
learning)的代表算法之一、圖像識(shí)別、keras、
遷移學(xué)習(xí);
深度學(xué)習(xí)在癌癥(如皮膚癌)檢測(cè),將近13萬張可用
的皮膚病變圖像,覆蓋了2000多種不同的疾病類型。
他們使用這一數(shù)據(jù)集創(chuàng)建了圖像庫,并將其作為原
始像素提供給算法,每個(gè)像素都帶有標(biāo)簽,描述了相
關(guān)疾病的附加數(shù)據(jù)。研究人員訓(xùn)練算法總結(jié)出圖像里
的模式,也即發(fā)現(xiàn)疾病經(jīng)由組織傳播在外觀上所遵循
的規(guī)則;
特訓(xùn)營·第 6 計(jì)劃·(階段六)
強(qiáng)化學(xué)習(xí)(reinforcement learning),又稱再勵(lì)學(xué)習(xí)
、評(píng)價(jià)學(xué)習(xí),是一種重要的機(jī)器學(xué)習(xí)方法,在智能控
制機(jī)器人及分析預(yù)測(cè)等領(lǐng)域有許多應(yīng)用,與 OpenAI
Gym 的基礎(chǔ);
馬爾科夫決策過程策略,基于馬爾可夫過程理論的隨
機(jī)動(dòng)態(tài)系統(tǒng)的優(yōu)決策過程;
馬爾可夫決策過程是序貫決策的主要研究領(lǐng)域,它是
馬爾可夫過程與確定性的動(dòng)態(tài)規(guī)劃相結(jié)合的產(chǎn)物,又
稱馬爾科夫型隨機(jī)動(dòng)態(tài)規(guī)劃,屬于運(yùn)籌學(xué)中的數(shù)學(xué)規(guī)
劃的一個(gè)分支,推到Bellman方程;
迭代策略評(píng)估、策略改進(jìn)、策略迭代和值迭代;
蒙特卡洛預(yù)測(cè),也叫蒙特卡羅(Monte Carlo)方法,
又稱隨機(jī)抽樣或統(tǒng)計(jì)試驗(yàn)方法,控制方案、greedy算
法、epsilon-greedy算法;
Sarsa、Q-Learning 、預(yù)期 Sarsa;
解決 OpenAI Gym(OpenAI Gym 是一個(gè)用于開發(fā)
和比較RL 算法的工具包,與其他的數(shù)值計(jì)算庫兼容
,如tensorflow 或者theano 庫?,F(xiàn)在主要支持的
是python 語言,以后將支持其他語言)的Taxi-v2
任務(wù);
傳統(tǒng)算法適用于連續(xù)空間;
深度神經(jīng)網(wǎng)絡(luò)將強(qiáng)化學(xué)習(xí)方法擴(kuò)展到復(fù)雜問題;
基于策略的方法優(yōu)化優(yōu)策略;
基于價(jià)值、基于策略的方法,解決具有挑戰(zhàn)性的強(qiáng)化
學(xué)習(xí)問題;
強(qiáng)化學(xué)習(xí)相關(guān)的測(cè)試題;