SQL機器學習庫MADlib技術解析
作者:王雪迎
定價:79元
印次:1-1
ISBN:9787302518945
出版日期:2019.02.01
印刷日期:2019.01.02
定價:79元
印次:1-1
ISBN:9787302518945
出版日期:2019.02.01
印刷日期:2019.01.02
書分為11章,從MADlib的基本概念、MADlib的架構、支持的模型類型與功能入手,詳細解析MADlib各種模型的具體用法,包括數據類型、矩陣分解、數據轉換、數據探索、主成分分析、回歸、時間序列分析、分類、聚類、關聯規則、圖算法、模型評估等。每種模型將從背景知識、函式語法、套用示例三方面進行 說明。
目錄
第1章MADlib基礎 1
1.1基本概念 1
1.1.1MADlib是什麼 1
1.1.2MADlib的設計思想 2
1.1.3MADlib的工作原理 3
1.1.4MADlib的執行流程 4
1.1.5MADlib架構 5
1.2MADlib的功能 6
1.2.1MADlib支持的模型類型 6
1.2.2MADlib的主要功能模組 7
1.3MADlib的安裝與卸載 9
1.3.1確定安裝平台 9
1.3.2下載MADlib二進制壓縮檔 10
1.3.3安裝MADlib 10
1.3.4卸載MADlib 12
1.4小結 13
第2章數據類型 14
2.1向量 14
2.1.1MADlib中的向量操作函式 15
2.1.2稀疏向量 23
2.2矩陣 30
2.2.1矩陣定義 31
2.2.2MADlib中的矩陣表示 31
2.2.3MADlib中的矩陣運算函式 32
2.3小結 49
第3章數據轉換 50
3.1鄰近度 50
3.1.1MADlib的鄰近度相關函式 50
3.1.2距離度量的中心化和標準化 57
3.1.3選取正確的鄰近度度量 58
3.2矩陣分解 59
3.2.1低秩矩陣分解 59
3.2.2奇異值分解 70
3.3透視表 87
3.4分類變數編碼 97
3.5小結 110
第4章數據探索 111
4.1描述性統計 111
4.1.1皮爾森相關 111
4.1.2匯總統計 117
4.2機率統計 125
4.2.1機率 125
4.2.2統計推論 133
4.3主成分分析 147
4.3.1背景知識 147
4.3.2MADlib的PCA相關函式 149
4.3.3MADlib的PCA套用示例 155
4.4小結 160
第5章回歸 161
5.1線性回歸 161
5.1.1背景知識 161
5.1.2MADlib的線性回歸相關函式 164
5.1.3線性回歸示例 166
5.2非線性回歸 171
5.2.1背景知識 171
5.2.2MADlib的非線性回歸相關
函式 172
5.2.3非線性回歸示例 175
5.3邏輯回歸 179
5.3.1背景知識 179
5.3.2MADlib的邏輯回歸相關函式 180
5.3.3邏輯回歸示例 182
5.4多類回歸 187
5.4.1背景知識 187
5.4.2MADlib的多類回歸相關函式 190
5.4.3多類回歸示例 192
5.5序數回歸 196
5.5.1背景知識 196
5.5.2MADlib的序數回歸相關函式 197
5.5.3序數回歸示例 200
5.6彈性網路回歸 202
5.6.1背景知識 202
5.6.2MADlib的彈性網路回歸相關
函式 204
5.6.3彈性網路回歸示例 209
5.7小結 221
第6章時間序列分析 222
6.1背景知識 222
6.1.1時間序列分析方法 222
6.1.2ARIMA模型 223
6.2MADlib中ARIMA相關函式 225
6.3時間序列分析示例 228
6.4小結 232
第7章分類 233
7.1K近鄰 233
7.1.1背景知識 233
7.1.2MADlib中K近鄰函式 235
7.1.3K近鄰示例 236
7.2樸素貝葉斯 240
7.2.1背景知識 240
7.2.2MADlib中樸素貝葉斯分類
相關函式 242
7.2.3樸素貝葉斯分類示例 244
7.3支持向量機 249
7.3.1背景知識 249
7.3.2MADlib的支持向量機相關
函式 252
7.3.3支持向量機示例 258
7.4決策樹 264
7.4.1背景知識 264
7.4.2MADlib的決策樹相關函式 267
7.4.3決策樹示例 272
7.5隨機森林 281
7.5.1背景知識 281
7.5.2MADlib的隨機森林相關函式 282
7.5.3隨機森林示例 287
7.6小結 293
第8章聚類 294
8.1背景知識 294
8.1.1聚類的概念 294
8.1.2k-means方法 295
8.2MADlib的k-means相關函式 297
8.2.1訓練函式 298
8.2.2簇分配函式 300
8.2.3輪廓係數函式 301
8.3k-means示例 301
8.4小結 307
第9章關聯規則 308
9.1背景知識 308
9.1.1基本概念 308
9.1.2Apriori算法 311
9.2MADlib的Apriori算法函式 312
9.3Apriori套用示例 313
9.4小結 319
第10章圖算法 320
10.1背景知識 320
10.1.1基本概念 320
10.1.2常見圖算法 321
10.1.3單源最短路徑 323
10.2MADlib的單源最短路徑相關函式 324
10.3單源最短路徑示例 325
10.4小結 327
第11章模型評估 328
11.1交叉驗證 328
11.1.1背景知識 328
11.1.2MADlib的交叉驗證相關
函式 331
11.1.3交叉驗證示例 333
11.2預測度量 336
11.3小結 342