內容簡介
《機器學習套用與實戰(全彩)》共 21 章,分為 3 部分。第 1 部分介紹機器學習基礎算法,包括線性回歸、多項式回歸、邏輯回歸、k-NN、決策樹、k-Means、SVM、隨機森林、樸素貝葉斯、PCA 降維等,針對每個算法給出套用案例,讓讀者既掌握算法原理,又能夠使用算法解決問題。第 2 部分是機器學習基礎算法綜合套用,通過學生分數預測、自閉症患者預測、淘寶用戶價值分析、耳機評論情感預測幾個案例提升讀者對機器學習算法的套用能力。第 3 部分是機器學習進階算法與套用,介紹邏輯更為複雜的機器學習算法,如改進的聚類算法、HMM算法、Boosting 算法等,並給出相應案例,此外,還展示了多個算法綜合套用項目。
圖書目錄
第 1 部分機器學習基礎算法
第 1 章基於線性回歸的銷售量預測 2
1.1 機器學習概述 2
1.2 線性回歸 4
1.2.1 回歸的概念 4
1.2.2 線性回歸模型 4
1.3 梯度下降算法 7
1.4 線性回歸模型的構建 8
1.4.1 線性回歸模型構建的一般步驟 8
1.4.2 線性回歸模型的評估方法與度量指標 9
1.5 案例實現——基於線性回歸的銷售量預測 9
本章總結 13
作業與練習 14
第 2 章非線性數據的多項式回歸 15
2.1 多項式回歸 16
2.1.1 多項式回歸的概念 16
2.1.2 0-1 標準化 16
2.1.3 Z-Score 標準化 18
2.1.4 特徵拓展 19
2.2 模型訓練問題與解決方法 22
2.2.1 欠擬合與過擬合 22
2.2.2 正則化方法 23
2.3 案例實現——非線性數據的
多項式回歸 24
本章總結 31
作業與練習 31
第 3 章基於邏輯回歸算法的 乳腺癌患病預測 33
3.1 邏輯回歸算法 33
3.1.1 邏輯回歸算法概述 33
3.1.2 機率估算 34
3.1.3 損失函式 35
3.2 分類數據的預處理 36
3.2.1 欠採樣與過採樣 36
3.2.2 數據的標籤化 37
3.2.3 數據的獨熱編碼 38
3.3 模型的性能評估 40
3.3.1 數值型模型評估方法 40
3.3.2 幾何型模型評估方法 42
3.4 案例實現——基於邏輯回歸算法的乳腺癌患病預測 44
本章總結 48
作業與練習 49
第 4 章基於 k-NN 算法的分類 50
4.1 k-NN 算法 51
4.1.1 k-NN 算法概述 51
4.1.2 樣本距離的度量 51
4.1.3 k-NN 算法的工作原理 51
4.1.4 k-NN 算法的三個要素 53
4.2 k-NN 算法加速思路 54
4.3 案例實現 55
4.3.1 案例 1——基於 k-NN 算法的電影分類 55
4.3.2 案例 2——基於 k-NN 算法的鳶尾花數據集分類 58
本章總結 61
作業與練習 61
第 5 章基於決策樹算法的回歸預測與 分類 62
5.1 決策樹的介紹 62
5.2 決策樹的構建 65
5.2.1 特徵選擇 65
5.2.2 決策樹的構建過程 67
5.2.3 決策樹剪枝 69
5.2.4 連續特徵的處理方法 70
5.3 決策樹可視化 70
5.4 案例實現 71
5.4.1 案例 1——基於決策樹算法的商品銷售量回歸預測 71
5.4.2 案例 2——基於決策樹算法的鳶尾花數據集分類 73
本章總結 76
作業與練習 76
第 6 章基於 k-Means 算法的聚類 78
6.1 k-Means 算法 79
6.1.1 k-Means 算法概述 79
6.1.2 k-Means 算法的工作原理 79
6.1.3 k-Means 算法的流程 80
6.2 最佳 k 值的確定方法 80
6.2.1 手肘法 81
6.2.2 輪廓係數法 81
6.3 k-Means 算法的改進 82
6.3.1 k-Means++算法 83
6.3.2 k-MeansⅡ算法 83
6.3.3 Mini-Batch k-Means算法 83
6.4 案例實現 84
6.4.1 案例 1——基於手肘法使用 k-Means 算法的飲料聚類 84
6.4.2 案例 2——基於輪廓係數法使用 k-Means 算法的飲料聚類 87
本章總結 89
作業與練習 90
第 7 章基於 SVM 算法的分類與 回歸預測 91
7.1 SVM 算法概述 91
7.2 SVM 算法的工作原理 92
7.2.1 硬間隔 SVM 算法 92
7.2.2 軟間隔 SVM 算法 95
7.3 核函式 95
7.4 SVM 回歸 97
7.5 案例實現 97
7.5.1 案例 1——基於 SVM 算法的鳶尾花數據集分類 97
7.5.2 案例 2——基於 SVM 算法的數據回歸分析 100
本章總結 104
作業與練習 104
第 8 章隨機森林揭秘 105
8.1 集成學習概述 105
8.2 集成學習的實現方式 107
8.2.1 Bagging 算法 107
8.2.2 Boosting 算法 107
8.3 集成學習的組合策略 108
8.3.1 平均法 108
8.3.2 投票法 108
8.3.3 學習法 109
8.4 隨機森林 109
8.4.1 隨機森林概述 109
8.4.2 隨機森林特徵選擇 110
8.4.3 OOB 處理方式 110
8.5 案例實現 111
8.5.1 案例 1——使用隨機森林進行森林植被類型的預測 111
8.5.2 案例 2——使用隨機森林進行共享腳踏車每小時租用量的預測113
本章總結 115
作業與練習 115
第 9 章基於樸素貝葉斯算法的中文預測 116
9.1 貝葉斯算法 117
9.1.1 數學基礎回顧 117
9.1.2 貝葉斯公式 118
9.2 樸素貝葉斯算法 119
9.2.1 樸素貝葉斯算法的由來 119
9.2.2 拉普拉斯平滑 120
9.3 樸素貝葉斯算法家族 121
9.3.1 高斯樸素貝葉斯算法 121
9.3.2 多項式樸素貝葉斯算法 122
9.4 中文文本預測 123
9.4.1 詞頻處理 123
9.4.2 jieba 分詞器 125
9.5 案例實現——基於樸素貝葉斯算法的中文預測 126
本章總結 129
作業與練習 129
第 10 章基於 PCA 降維的圖片重構 131
10.1 降維 131
10.1.1 降維的作用 131
10.1.2 降維的理解 132
10.2 SVD 算法解析 133
10.2.1 特徵值分解 133
10.2.2 奇異值分解 133
10.2.3 降維可視化效果 134
10.2.4 降維在圖片壓縮中的套用 136
10.3 PCA 降維 138
10.3.1 PCA 降維的工作原理 138
10.3.2 使用 PCA 底層算法實現圖片重構的流程 139
10.4 案例實現——基於 PCA 降維的圖片重構 139
本章總結 143
作業與練習 143
第 2 部分機器學習基礎算法綜合套用
第 11 章學生分數預測 146
11.1 數據集分析 146
11.2 案例實現——學生分數預測 147
本章總結 161
作業與練習 161
第 12 章自閉症患者預測 163
12.1 數據集分析 163
12.2 案例實現——自閉症患者預測164
本章總結 175
作業與練習 175
第 13 章淘寶用戶價值分析 176
13.1 數據集分析 176
13.2 RFM 模型 177
13.3 雷達圖 178
13.4 案例實現——淘寶用戶價值分析 178
本章總結 191
作業與練習 191
第 14 章耳機評論情感預測 192
14.1 數據集分析 192
14.2 案例實現——耳機評論情感預測 193
本章總結 200
作業與練習 200
第 3 部分機器學習進階算法與套用
第 15 章聚類算法綜合 202
15.1 DBSCAN 算法 203
15.1.1 k-Means 算法的缺陷 203
15.1.2 DBSCAN 算法分析 203
15.1.3 案例實現——驗證 k-Means 算法和 DBSCAN
算法的特點和區別 205
15.2 層次聚類算法 208
15.2.1 算法分析 208
15.2.2 案例實現——基於凝聚的層次聚類算法的數據
聚類 210
15.3 GMM 算法 213
15.3.1 算法分析 213
15.3.2 案例實現——基於 GMM算法的性別預測 214
本章總結 218
作業與練習 218
第 16 章基於 HMM 算法的股票 行情預測 220
16.1 HMM 算法的工作原理 220
16.2 案例實現——基於 HMM 算法的股票行情預測 222
本章總結 226
作業與練習 226
第 17 章 Boosting 算法綜合 228
17.1 Boosting 算法的工作原理簡介 228
17.2 AdaBoost 算法 229
17.2.1 算法概述 229
17.2.2 分類算法分析 230
17.2.3 回歸算法分析 231
17.2.4 案例實現——基於 AdaBoost 算法的病馬治癒預測 232
17.3 GBDT 算法 235
17.3.1 算法概述 235
17.3.2 衰減 235
17.3.3 算法分析 236
17.3.4 案例實現——基於 GBDT算法的數字手寫體識別 237
17.4 XGBoost 算法 239
17.4.1 算法概述 239
17.4.2 XGBoost 算法庫的安裝 240
17.4.3 案例實現——基於 XGBoost 算法的數字手寫體識別 241
本章總結 244
作業與練習 244
第 18 章飯店銷售量預測 245
18.1 數據集分析 245
18.2 異常值處理 246
18.3 多欄位分析的含義與作用 247
18.4 案例實現——飯店銷售量預測 248
本章總結 259
作業與練習 260
第 19 章信貸違約預測 261
19.1 數據集分析 261
19.2 案例實現——信貸違約預測 262
本章總結 270
作業與練習 270
第 20 章胎兒健康分類預測 271
20.1 數據集分析 271
20.2 案例實現——胎兒健康分類預測 272
本章總結 286
作業與練習 287
第 21 章淘寶用戶畫像處理 288
21.1 數據集分析 288
21.2 用戶畫像 289
21.2.1 用戶畫像概述 289
21.2.2 用戶畫像所需數據 290
21.3 案例實現——淘寶用戶畫像處理 290
本章總結 305
作業與練習 306
作者簡介
達內時代科技集團是國內知名的網際網路-IT教育培訓單位,是一站式網際網路人才基地,專注IT職業教育人才服務多年,擁有300多家培訓中心,幫助學員實現一地學習全國就業。