近年來,存儲設備的單位成本以驚人的速度下降,我們可以輕而易舉地積累起大量的數(shù)據(jù)。電信 運營商,可以記錄用戶通話、短消息、無線上網(wǎng)產(chǎn)生的每一條信令,省級運營商一小時寫入存儲設備的數(shù)據(jù)量可以達到幾百G。
電子商務網(wǎng)站,可以記錄用戶的每一 次交易,甚至每一次點擊,可以復原用戶的完整訪問路徑找出用戶的興趣點。城市監(jiān)控體系,在各個重要路口,高速公路上的攝像頭,每秒鐘都在產(chǎn)生海量的視頻數(shù) 據(jù)。在生命科學領(lǐng)域,對人體的DNA分析,一個個體就能產(chǎn)生幾個G數(shù)據(jù),可以想象如果一個生物信息數(shù)據(jù)庫里包含了成千萬的個體數(shù)據(jù),信息量將會是怎樣一個 規(guī)模,如此等等,不勝枚舉。我們毫無疑問,正處于一個信息迸發(fā)的時代。
不幸的是,我們得到的這些數(shù)據(jù)中的絕大部分,在它的生命周期里基本上都被閑置著,從來沒有考慮過產(chǎn)生任何的價值,的用途就是“保存?zhèn)洳椤薄?/p>
盡管“啤酒與尿布”的故事,已經(jīng)寫入教科書有10多年了,幾乎每一個接受過專業(yè)教育的同仁都知道數(shù)據(jù)挖掘能產(chǎn)生的價值,但是直到今天,我們對數(shù)據(jù)的處理依然很低。造成這種情況的原因有很多。
其中之一是,在各公司里保管數(shù)據(jù)的大多是IT人員,他們通常都缺乏必要的數(shù)學素質(zhì)和知識基礎(chǔ)去進行建模和深入的分析工作,即使是業(yè)務人員也鮮有對數(shù)據(jù)有深入認識者。
我們推出大數(shù)據(jù)系列(包括Hadoop,NoSQL,Mahout等)和數(shù)據(jù)分析系列(包括R,SAS等)課程后,觀察學員(特別是IT工作者和業(yè)務人員)的學習狀況,發(fā)現(xiàn)他們中的大多數(shù)嚴重缺乏進一步挖掘數(shù)據(jù)價值所需的數(shù)學素養(yǎng)。
本門課程的目標,正是要打破這種鴻溝,為大家鞏固基礎(chǔ),為進一步在數(shù)據(jù)領(lǐng)域前進提供更強動力。統(tǒng)計學,被譽為是數(shù)據(jù)金字塔的“基礎(chǔ)之基礎(chǔ)”,統(tǒng)計學知識扎實,無論學習R,SAS,機器學習,數(shù)據(jù)挖掘,大數(shù)據(jù)分析等領(lǐng)域知識都會得心應手,省去回頭補課的麻煩。
課程內(nèi)容:
第1課 面向小白的統(tǒng)計學:描述性統(tǒng)計(均值,中位數(shù),眾數(shù),方差,標準差,與常見的統(tǒng)計圖表)
第2課 賭博設計:概率的基本概念,古典概型
第3課 每人腦袋里有個貝葉斯:條件概率與貝葉斯公式,獨立性
第4課 啊!微積分:隨機變量及其分布(二項分布,均勻分布,正態(tài)分布)
第5課 萬事皆由分布掌握:多維隨機變量及其分布
第6課 磚家的統(tǒng)計學:隨機變量的期望,方差與協(xié)方差
第7課 上帝之手,統(tǒng)計學的哲學基礎(chǔ):大數(shù)定律、中心極限定理與抽樣分布
第8課 點數(shù)成金,從抽樣推測規(guī)律之一:參數(shù)估計之點估計
第9課 點數(shù)成金,從抽樣推測規(guī)律之二:參數(shù)估計之區(qū)間估計
第10課 對或錯?告別拍腦袋決策:基于正態(tài)總體的假設檢驗
第11課 扔掉正態(tài)分布:秩和檢驗
第12課 預測未來的技術(shù):回歸分析
第13課 抓住表象背后那只手:方差分析
第14課 沿著時間軸前進,預測電子商務業(yè)績:時間序列分析簡介
第15課 PageRank的背后:隨機過程與馬爾科夫鏈簡介
授課對象: 這是一門數(shù)學課程,適合有志于轉(zhuǎn)往大數(shù)據(jù)分析領(lǐng)域的非數(shù)學專業(yè)人士(例如IT人,業(yè)務人員等)補強數(shù)學基礎(chǔ),以更好地學習更高級的數(shù)據(jù)分析,數(shù)據(jù)挖掘,機器學習課程
收獲預期: 可以大幅度提高學員的數(shù)學基礎(chǔ),使其學習其它大數(shù)據(jù)分析課程時覺得更加簡單,得心應手