分散式統計計算

分散式統計計算

《分散式統計計算》是2018年3月上海財經大學出版社出版的圖書,作者是馮興東。

基本介紹

  • 書名:分散式統計計算
  • 作者:馮興東
  • 出版社:上海財經大學出版社
  • 出版時間:2018年3月
  • 定價:39 元
  • 開本:16 開
  • ISBN:9787564229696
內容簡介,圖書目錄,

內容簡介

人類各項科學技術的發展帶來了海量數據,“大數據”的概念鋪天蓋地。統計學這一專注於數據分析的學科理應適應於這一時代的重大變革和發展。顯然大數據帶給統計學的衝擊是全方面的,不只是局限於理論或者計算。國際上眾多統計學家都在思考統計學在大數據時代應該扮演的角色。然而,提高統計學專業的學生相關計算機編程能力卻是刻不容緩。在這一背景之下,上海財經大學統計與管理學院開設了專業統計學碩士“數據科學與商務統計”方向,力圖增強相關碩士生從事大數據分析的計算能力以及分析商務數據(包括行銷數據、信用數據等)的套用能力。在這一指導思想之下,上海財經大學統計與管理學院開設了一系列相關課程。本講義就是針對該專業方向的《分散式統計計算》一課。這門課程向學生介紹分散式計算的思想以及在統計學上的套用,將統計學傳統方法和分散式計算方法相結合,通過不同的統計學問題來強化學生的分散式統計計算的編程能力和對統計計算的理解。

圖書目錄

前言1
1Apache Spark簡介1
1.1Apache Spark的歷史與現狀1
1.2安裝和運行Apache Spark2
1.3Apache Spark編程簡介5
1.3.1Scala語言5
1.3.2Spark編程11
1.4公共數據集14
2Breeze程式包15
2.1創建向量、矩陣及其簡單計算15
2.2整行或整列的運算19
2.3常用數學計算20
2.4常用分布20
2.5基於Breeze包的分散式計算23
3隨機模擬和統計推斷24
3.1隨機數的產生24
3.1.1逆累積分布函式法25
3.1.2拒絕法26
3.1.3案例: 從回歸模型中模擬數據27
3.2EM最佳化31
3.2.1EM基本算法31
3.2.2收斂性分析31
3.2.3分散式EM算法32
3.2.4案例: 高斯混合模型33
4馬爾科夫鏈蒙特卡洛37
4.1MetropolisHastings算法38
4.2Slice取樣法40
4.3Gibbs取樣法41
5最佳化方法43
5.1交替方向乘子法43
5.1.1算法介紹43
5.1.2案例: 分位數回歸分散式參數估計45
5.2數值計算方法50
5.2.1隨機梯度下降算法51
5.2.2有限記憶體BFGS算法61
6自舉法65
6.1自由自舉法66
6.2子集合自舉法68
7常用大數據統計學習方法71
7.1聚類分析71
7.1.1K組中心法72
7.1.2隱狄利克雷分配法74
7.1.3功效疊代聚類法77
7.2分類分析78
7.2.1Logistic回歸79
7.2.2線性支持向量機79
7.2.3線性判別分析81
7.2.4決策樹82
8數據降維87
8.1主成分分析87
8.2奇異值分解88
8.3案例89
8.3.1讀取圖片90
8.3.2處理圖片91
8.3.3存儲圖片92
8.3.4提取主成分向量93
附錄部分課程案例97
案例1基於EM算法的t分布參數估計97
案例2基於SCAD懲罰的線性回歸分析115
參考文獻124

相關詞條

熱門詞條

聯絡我們