《Python大戰機器學習》全稱《Python大戰機器學習:數據科學家的第一個小目標》,作者華校專、王正林,由電子工業出版社2017年3月出版。
基本介紹
- 書名:Python大戰機器學習:數據科學家的第一個小目標
- 作者:華校專 王正林
- ISBN:978-7-121-30894-9
- 類別:教育
- 頁數:452
- 定價:69.00
- 出版社:電子工業出版社
- 出版時間:2017年3月
- 裝幀:平裝
- 開本:16開
內容提要,目錄,
內容提要
數據科學家是當下炙手可熱的職業,機器學習則是他們的必備技能。機器學習在大數據分析中居於核心地位,在網際網路、金融保險、製造業、零售業、醫療等產業領域發揮了越來越大的作用且日益受到關注。
Python 是最好最熱門的程式語言之一,以簡單易學、套用廣泛、類庫強大而著稱,是實現機器學習算法的首選語言。
《Python大戰機器學習:數據科學家的第一個小目標》以快速上手、四分理論六分實踐為出發點,講述機器學習的算法和Python 編程實踐,採用“原理筆記精華+ 算法Python 實現+ 問題實例+ 代碼實戰+ 運行調參”的形式展開,理論與實踐結合,算法原理與編程實戰並重。
《Python大戰機器學習:數據科學家的第一個小目標》從內容上分為13 章分4 篇展開:第一篇:機器學習基礎篇(第1~6 章),講述機器學習的基礎算法,包括線性模型、決策樹、貝葉斯分類、k 近鄰法、數據降維、聚類和EM算法;第二篇:機器學習高級篇(第7~10 章),講述經典而常用的高級機器學習算法,包括支持向量機、人工神經網路、半監督學習和集成學習;第三篇:機器學習工程篇(第11~12章),講述機器學習工程中的實際技術,包括數據預處理,模型評估、選擇與驗證等;第四篇:Kaggle 實戰篇(第13 章),講述一個Kaggle 競賽題目的實戰。
《Python大戰機器學習:數據科學家的第一個小目標》內容豐富、深入淺出,算法與代碼雙管齊下,無論你是新手還是有經驗的讀者,都能快速學到你想要的知識。本書可供為高等院校計算機、金融、信息、自動化及相關理工科專業的本科生或研究生使用,也可供對機器學習感興趣的研究人員和工程技術人員閱讀參考。
目錄
第一篇機器學習基礎篇 1
第 1章線性模型 .................................................. 2
1.1概述 2
1.2算法筆記精華 2
1.2.1普通線性回歸 2
1.2.2廣義線性模型 5
1.2.3邏輯回歸 5
1.2.4線性判別分析 7
1.3 Python實戰 10
1.3.1線性回歸模型 11
1.3.2線性回歸模型的正則化 12
1.3.3邏輯回歸 22
1.3.4線性判別分析 26
第 2章決策樹 .................................................... 30
2.1概述 30
2.2算法筆記精華 30
2.1決策樹原理 30
2.2構建決策樹的 3個步驟 31
CART算法 37
2.4連續值和缺失值的處理 42
2.3 Python實戰 43
2.3.1回歸決策樹(DecisionTreeRegressor) 43
2.3.2分類決策樹(DecisionTreeClassifir) 49
2.3.3決策圖 54
第 3章貝葉斯分類器.............................................. 55
3.1概述 55
3.2 算法筆記精華55
3.2.1 貝葉斯定理55
3.2.2 樸素貝葉斯法56
3.3 Python 實戰59
3.3.1 高斯貝葉斯分類器(GaussianNB) 61
3.3.2 多項式貝葉斯分類器(MultinomialNB) 62
3.3.3 伯努利貝葉斯分類器(BernoulliNB) 65
3.3.4 遞增式學習partial_fit 方法69
第4 章k 近鄰法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4.1 概述70
4.2 算法筆記精華70
4.2.1 kNN 三要素70
4.2.2 k 近鄰算法72
4.2.3 kd 樹73
4.3 Python 實踐74
第5 章數據降維. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
5.1 概述83
5.2 算法筆記精華83
5.2.1 維度災難與降維83
5.2.2 主成分分析(PCA) 84
5.2.3 SVD 降維91
5.2.4 核化線性(KPCA)降維91
5.2.5 流形學習降維93
5.2.6 多維縮放(MDS)降維93
5.2.7 等度量映射(Isomap)降維96
5.2.8 局部線性嵌入(LLE) 97
5.3 Python 實戰99
5.4 小結118
第6 章聚類和EM 算法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
6.1 概述119
6.2 算法筆記精華120
6.2.1 聚類的有效性指標120
6.2.2 距離度量122
6.2.3 原型聚類123
6.2.4 密度聚類126
6.2.5層次聚類 127
6.2.6 EM算法 128
6.2.7實際中的聚類要求 136
6.3 Python實戰 137
K均值聚類(KMeans) 138
3.2密度聚類(DBSCAN) 143
3.3層次聚類(AgglomerativeClustering) 146
3.4混合高斯(GaussianMixture)模型 149
6.4小結 153
第二篇機器學習高級篇 155
第 7章支持向量機 ................................................ 156
7.1概述 156
7.2算法筆記精華 157
2.1線性可分支持向量機 157
2.2線性支持向量機 162
2.3非線性支持向量機 166
2.4支持向量回歸 167
SVM的優缺點 170
7.3 Python實戰 170
7.3.1線性分類 SVM 171
7.3.2非線性分類 SVM 175
7.3.3線性回歸 SVR 182
7.3.4非線性回歸 SVR 186
第 8章人工神經網路.............................................. 192
8.1概述 192
8.2算法筆記精華 192
8.2.1感知機模型 192
8.2.2感知機學習算法 194
8.2.3神經網路 197
8.3 Python實戰 205
3.1感知機學習算法的原始形式 205
3.2感知機學習算法的對偶形式 209
3.3學習率與收斂速度 212
3.4感知機與線性不可分數據集 213
3.5多層神經網路 215
8.3.6多層神經網路與線性不可分數據集 216
8.3.7多層神經網路的套用 219
第 9章半監督學習 ................................................ 225
9.1概述 225
9.2算法筆記精華 226
2.1生成式半監督學習方法 226
2.2圖半監督學習 228
9.3 Python實戰 234
9.4小結 243
第 10章集成學習 ................................................. 244
10.1概述 244
10.2算法筆記精華 244
10.2.1集成學習的原理及誤差 244
10.2.2 Boosting算法 246
10.2.3 AdaBoost算法 246
10.2.4 AdaBoost與加法模型 252
10.2.5提升樹 253
10.2.6 Bagging算法 256
10.2.7誤差-分歧分解 257
10.2.8多樣性增強 259
10.3 Python實戰 260
10.3.1 AdaBoost 261
10.3.2 GradientTreeBoosting 272
10.3.3 RandomForest 288
10.4小結 298
第三篇機器學習工程篇 299
第 11章數據預處理............................................... 300
11.1概述 300
11.2算法筆記精華 300
11.2.1去除唯一屬性 300
11.2.2處理缺失值的三種方法 301
11.2.3常見的缺失值補全方法 302
11.2.4特徵編碼 307
2.5數據標準化、正則化 308
2.6特徵選擇 310
2.7稀疏表示和字典學習 313
11.3 Python實踐 316
11.3.1二元化 316
11.3.2獨熱碼 317
11.3.3標準化 321
11.3.4正則化 325
11.3.5過濾式特徵選取 326
11.3.6包裹式特徵選取 330
11.3.7嵌入式特徵選取 334
11.3.8學習器流水線(Pipeline) 339
11.3.9字典學習 340
第 12章模型評估、選擇與驗證 .................................... 345
12.1概述 345
12.2算法筆記精華 346
2.1損失函式和風險函式 346
2.2模型評估方法 348
2.3模型評估 349
2.4性能度量 350
2.5偏差方差分解 356
12.3 Python實踐 357
3.1損失函式 357
3.2數據集切分 359
3.3性能度量 370
3.4參數最佳化 387
第四篇 Kaggle實戰篇 401
第 13章 Kaggle牛刀小試 .......................................... 402
13.1 Kaggle簡介 402
13.2清洗數據 403
2.1載入數據 403
2.2合併數據 406
2.3拆分數據 407
2.4去除唯一值 408
2.5數據類型轉換 410
13.2.6 Data_Cleaner類 412
13.3數據預處理 415
13.3.1獨熱碼編碼 415
13.3.2歸一化處理 419
13.3.3 Data_Preprocesser類 421
13.4學習曲線和驗證曲線 424
13.4.1程式說明 424
13.4.2運行結果 430
13.5參數最佳化 433
13.6小結 435
全書符號 ........................................................... 436