《精通機器學習 基於R(第2版)》是2018年3月人民郵電出版社出版的圖書,作者是[美]考瑞·萊斯米斯特爾。
基本介紹
- 書名:精通機器學習:基於R(第2版)
- 作者:[美]考瑞·萊斯米斯特爾
- ISBN:9787115477781
- 頁數:291頁
- 定價:69元
- 出版社:人民郵電出版社
- 出版時間:2018年3月
- 裝幀:平裝
- 開本:16開
內容簡介,圖書目錄,
內容簡介
機器學習是近年來的熱門技術話題,R語言是處理其中大量數據的有力工具。本書為讀者提供機器學習和R語言的堅實算法基礎和業務基礎,內容包括機器學習基本概念、線性回歸、邏輯回歸和判別分析、線性模型的高 級選擇特性、K* 近鄰和支持向量機等,力圖平衡實踐中的技術和理論兩方面。
本書適合試圖理解和表述機器學習算法的IT人士、想在分析中發揮R強大威力的統計學專家。即使是同時精通IT技術和統計學的讀者,在本書中仍然可以發現一些有用的竅門和技巧。
圖書目錄
* 1章 成功之路 1
1.1 流程 1
1.2 業務理解 2
1.2.1 確定業務目標 3
1.2.2 現狀評估 4
1.2.3 確定分析目標 4
1.2.4 建立項目計畫 4
1.3 數據理解 4
1.4 數據準備 5
1.5 建模 5
1.6 評價 6
1.7 部署 6
1.8 算法流程圖 7
1.9 小結 10
* 2章 線性回歸:機器學習基礎技術 11
2.1 單變數回歸 11
2.2 多變數線性回歸 18
2.2.1 業務理解 18
2.2.2 數據理解和數據準備 18
2.2.3 模型構建與模型評價 21
2.3 線性模型中的其他問題 30
2.3.1 定性特徵 30
2.3.2 互動項 32
2.4 小結 34
第3章 邏輯斯蒂回歸與判別分析 35
3.1 分類方法與線性回歸 35
3.2 邏輯斯蒂回歸 36
3.2.1 業務理解 36
3.2.2 數據理解和數據準備 37
3.2.3 模型構建與模型評價 41
3.3 判別分析概述 46
3.4 多元自適應回歸樣條方法 50
3.5 模型選擇 54
3.6 小結 57
第4章 線性模型中的高 級特徵選擇技術 58
4.1 正則化簡介 58
4.1.1 嶺回歸 59
4.1.2 LASSO 59
4.1.3 彈性網路 60
4.2 商業案例 60
4.2.1 業務理解 60
4.2.2 數據理解和數據準備 60
4.3 模型構建與模型評價 65
4.3.1 * 優子集 65
4.3.2 嶺回歸 68
4.3.3 LASSO 71
4.3.4 彈性網路 73
4.3.5 使用glmnet進行交叉驗證 76
4.4 模型選擇 78
4.5 正則化與分類問題 78
4.6 小結 81
第5章 更多分類技術:K-* 近鄰與
支持向量機 82
5.1 K-* 近鄰 82
5.2 支持向量機 84
5.3 商業案例 86
5.3.1 業務理解 86
5.3.2 數據理解和數據準備 87
5.3.3 模型構建與模型評價 92
5.3.4 模型選擇 98
5.4 SVM中的特徵選擇 100
5.5 小結 101
第6章 分類回歸樹 103
6.1 本章技術概述 103
6.1.1 回歸樹 104
6.1.2 分類樹 104
6.1.3 隨機森林 105
6.1.4 梯度提升 106
6.2 商業案例 106
6.2.1 模型構建與模型評價 107
6.2.2 模型選擇 121
6.2.3 使用隨機森林進行特徵選擇 121
6.3 小結 123
第7章 神經網路與深度學習 124
7.1 神經網路介紹 124
7.2 深度學習簡介 128
深度學習資源與高 級方法 130
7.3 業務理解 131
7.4 數據理解和數據準備 132
7.5 模型構建與模型評價 136
7.6 深度學習示例 139
7.6.1 H2O背景介紹 139
7.6.2 將數據上載到H2O平台 140
7.6.3 建立訓練數據集和測試
數據集 141
7.6.4 模型構建 142
7.7 小結 146
第8章 聚類分析 147
8.1 層次聚類 148
8.2 K-均值聚類 149
8.3 果瓦係數與圍繞中心的劃分 150
8.3.1 果瓦係數 150
8.3.2 PAM 151
8.4 隨機森林 151
8.5 業務理解 152
8.6 數據理解與數據準備 152
8.7 模型構建與模型評價 155
8.7.1 層次聚類 155
8.7.2 K-均值聚類 162
8.7.3 果瓦係數和PAM 165
8.7.4 隨機森林與PAM 167
8.8 小結 168
第9章 主成分分析 169
9.1 主成分簡介 170
9.2 業務理解 173
9.3 模型構建與模型評價 176
9.3.1 主成分抽取 176
9.3.2 正交旋轉與解釋 177
9.3.3 根據主成分建立因子得分 178
9.3.4 回歸分析 178
9.4 小結 184
* 10章 購物籃分析、推薦引擎與
序列分析 185
10.1 購物籃分析簡介 186
10.2 業務理解 187
10.3 數據理解和數據準備 187
10.4 模型構建與模型評價 189
10.5 推薦引擎簡介 192
10.5.1 基於用戶的協同過濾 193
10.5.2 基於項目的協同過濾 194
10.5.3 奇異值分解和主成分分析 194
10.6 推薦系統的業務理解 198
10.7 推薦系統的數據理解與數據準備 198
10.8 推薦系統的建模與評價 200
10.9 序列數據分析 208
10.10 小結 214
* 11章 創建集成多類分類 215
11.1 集成模型 215
11.2 業務理解與數據理解 216
11.3 模型評價與模型選擇 217
11.4 多類分類 219
11.5 業務理解與數據理解 220
11.6 模型評價與模型選擇 223
11.6.1 隨機森林 224
11.6.2 嶺回歸 225
11.7 MLR集成模型 226
11.8 小結 228
* 12章 時間序列與因果關係 229
12.1 單變數時間序列分析 229
12.2 業務理解 235
12.3 模型構建與模型評價 240
12.3.1 單變數時間序列預測 240
12.3.2 檢查因果關係 243
12.4 小結 249
* 13章 文本挖掘 250
13.1 文本挖掘框架與方法 250
13.2 主題模型 252
13.3 業務理解 254
13.4 模型構建與模型評價 257
13.4.1 詞頻分析與主題模型 257
13.4.2 其他定量分析 261
13.5 小結 267
* 14章 在雲上使用R語言 268
14.1 創建AWS賬戶 269
14.1.1 啟動虛擬機 270
14.1.2 啟動Rstudio 272
14.2 小結 274
附錄A R語言基礎 275