Python機器學習手冊:從數據預處理到深度學習

Python機器學習手冊:從數據預處理到深度學習

《Python機器學習手冊:從數據預處理到深度學習》不是機器學習的入門書,適合熟悉機器學習理論和概念的讀者閱讀。你可以將本書作 為案頭參考書,在機器學習的日常開發中遇到問題時,隨時借鑑書中代碼,快速解決問題。

基本介紹

  • 書名:Python機器學習手冊:從數據預處理到深度學習
  • 作者:【美】克里斯·阿爾本(Chris Albon) 著
  • 譯者:韓慧昌  林然  徐江 譯
  • ISBN:978-7-121-36962-9
  • 頁數:368頁
  • 定價:89.00元 
  • 出版社:電子工業出版社
  • 出版時間:2019年7月出版
  • 開本:16開
內容提要,目錄,

內容提要

《Python機器學習手冊:從數據預處理到深度學習》採用基於任務的方式來介紹如何在機器學習中使用Python。書中有近200個獨立的解決 方案,針對的都是數據科學家或機器學習工程師在構建模型時可能遇到的常見任務,涵蓋從簡 單的矩陣和向量運算到特徵工程以及神經網路的構建。所有方案都提供了相關代碼,讀者可以 複製並貼上這些代碼,用在自己的程式中。

目錄

第1 章 向量、矩陣和數組 ..................................................................... 1
1.0 簡介 .....................................................................................................1
1.1 創建一個向量 ......................................................................................1
1.2 創建一個矩陣 ......................................................................................2
1.3 創建一個稀疏矩陣 ...............................................................................3
1.4 選擇元素 ..............................................................................................5
1.5 展示一個矩陣的屬性 ...........................................................................6
1.6 對多個元素同時套用某個操作 ............................................................7
1.7 找到最大值和最小值 ...........................................................................8
1.8 計算平均值、方差和標準差 ................................................................9
1.9 矩陣變形 ............................................................................................10
1.10 轉置向量或矩陣 ............................................................... 11
1.11 展開一個矩陣 ....................................................................................12
1.12 計算矩陣的秩 ....................................................................................13
1.13 計算行列式 ........................................................................................14
1.14 獲取矩陣的對角線元素 .....................................................................14
1.15 計算矩陣的跡 ....................................................................................15
1.16 計算特徵值和特徵向量 .....................................................................16
1.17 計算點積 ...........................................................................................17
1.18 矩陣的相加或相減 ............................................................................18
1.19 矩陣的乘法 ........................................................................................19
1.20 計算矩陣的逆 ....................................................................................20
1.21 生成隨機數 ........................................................................................21
第2 章 載入數據 ................................................................................ 23
2.0 簡介 ...................................................................................................23
2.1 載入樣本數據集 ................................................................................23
2.2 創建仿真數據集 ................................................................................25
2.3 載入CSV 檔案 ..................................................................................28
2.4 載入Excel 檔案 .................................................................................29
2.5 載入JSON 檔案 .................................................................................29
2.6 查詢SQL 資料庫 ...............................................................................31
第3 章 數據整理 ................................................................................ 33
3.0 簡介 ...................................................................................................33
3.1 創建一個數據幀 ................................................................................34
3.2 描述數據 ............................................................................................35
3.3 瀏覽數據幀 ........................................................................................37
3.4 根據條件語句來選擇行 .....................................................................39
3.5 替換值 ...............................................................................................40
3.6 重命名列 ............................................................................................41
3.7 計算最小值、最大值、總和、平均值與計數值 ................................43
3.8 查找唯一值 ........................................................................................44
3.9 處理缺失值 ........................................................................................45
3.10 刪除一列 ...........................................................................................47
3.11 刪除一行 ............................................................................................48
3.12 刪除重複行 ........................................................................................49
3.13 根據值對行分組 ................................................................................51
3.14 按時間段對行分組 ............................................................................52
3.15 遍歷一個列的數據 ............................................................................54
3.16 對一列的所有元素套用某個函式 ......................................................55
3.17 對所有分組套用一個函式 .................................................................56
3.18 連線多個數據幀 ................................................................................57
3.19 合併兩個數據幀 ................................................................................59
第4 章 處理數值型數據 ...................................................................... 63
4.0 簡介 ...................................................................................................63
4.1 特徵的縮放 ........................................................................................63
4.2 特徵的標準化 ....................................................................................65
4.3 歸一化觀察值 ....................................................................................66
4.4 生成多項式和互動特徵 .....................................................................69
4.5 轉換特徵 ............................................................................................70
4.6 識別異常值 ........................................................................................71
4.7 處理異常值 ........................................................................................73
4.8 將特徵離散化 ....................................................................................75
4.9 使用聚類的方式將觀察值分組 ..........................................................77
4.10 刪除帶有缺失值的觀察值 .................................................................79
4.11 填充缺失值 ........................................................................................81
第5 章 處理分類數據 ......................................................................... 83
5.0 簡介 ...................................................................................................83
5.1 對nominal 型分類特徵編碼 ..............................................................84
5.2 對ordinal 分類特徵編碼 ....................................................................86
5.3 對特徵字典編碼 ................................................................................88
5.4 填充缺失的分類值 .............................................................................91
5.5 處理不均衡分類 ................................................................................93
第6 章 處理文本 ................................................................................ 97
6.0 簡介 ...................................................................................................97
6.1 清洗文本 ............................................................................................97
6.2 解析並清洗HTML ............................................................................99
6.3 移除標點 .......................................................................................... 100
6.4 文本分詞 .......................................................................................... 101
6.5 刪除停止詞(stop word)......................................... 102
6.6 提取詞幹 .......................................................................................... 103
6.7 標註詞性 .......................................................................................... 104
6.8 將文本編碼成詞袋(Bag of Words)................................................ 107
6.9 按單詞的重要性加權 ....................................... 109
第7 章 處理日期和時間 .................................................................... 113
7.0 簡介 ................................................................................................. 113
7.1 把字元串轉換成日期 ......................................................... 113
7.2 處理時區 .......................................................................................... 115
7.3 選擇日期和時間 .............................................................................. 116
7.4 將日期數據切分成多個特徵 ............................................................ 117
7.5 計算兩個日期之間的時間差 ............................................................ 118
7.6 對一周內的各天進行編碼 ............................................................... 119
7.7 創建一個滯後的特徵 ....................................................... 120
7.8 使用滾動時間視窗 ........................................................................... 121
7.9 處理時間序列中的缺失值 ............................................................... 123
第8 章 圖像處理 .............................................................................. 127
8.0 簡介 ................................................................................................. 127
8.1 載入圖像 .......................................................................................... 128
8.2 保存圖像 .......................................................................................... 130
8.3 調整圖像大小 .................................................................................. 131
8.4 裁剪圖像 .......................................................................................... 132
8.5 平滑處理圖像 .................................................................................. 133
8.6 圖像銳化 .......................................................................................... 136
8.7 提升對比度 .................................................................. 138
8.8 顏色分離 .......................................................................................... 140
8.9 圖像二值化 .......................................... 142
8.10 移除背景............................................. 144
8.11 邊緣檢測 .......................................................................................... 148
8.12 角點檢測 ................................. 150
8.13 為機器學習創建特徵 ................................................. 153
8.14 將顏色平均值編碼成特徵 ............................................................... 156
8.15 將色彩直方圖編碼成特徵 ............................................................... 157
第9 章 利用特徵提取進行特徵降維 ................................................... 161
9.0 簡介 ................................................................................................. 161
9.1 使用主成分進行特徵降維 ............................................................... 161
9.2 對線性不可分數據進行特徵降維 .................................................... 164
9.3 通過最大化類間可分性進行特徵降維 ............................................. 166
9.4 使用矩陣分解法進行特徵降維...................................... 169
9.5 對稀疏數據進行特徵降維 ............................................................... 170
第10 章 使用特徵選擇進行降維 ........................................................ 173
10.0 簡介........................................................... 173
10.1 數值型特徵方差的閾值化...................................... 173
10.2 二值特徵的方差閾值化............................................ 175
10.3 處理高度相關性的特徵 .......................................... 176
10.4 刪除與分類任務不相關的特徵 ...................................................... 178
10.5 遞歸式特徵消除 ............................................................................ 180
第11 章 模型評估 ............................................................................ 183
11.0 簡介 ...................................................................... 183
11.1 交叉驗證模型 .......................................... 183
11.2 創建一個基準回歸模型........................................ 187
11.3 創建一個基準分類模型 .................................. 188
11.4 評估二元分類器 ................................................ 190
11.5 評估二元分類器的閾值 ..................................... 193
11.6 評估多元分類器 .......................................................... 197
11.7 分類器性能的可視化 ..................................................................... 198
11.8 評估回歸模型 ............................................. 201
11.9 評估聚類模型 ............................................................ 203
11.10 創建自定義評估指標 ..................................................................... 204
11.11 可視化訓練集規模的影響 ............................................................. 206
11.12 生成對評估指標的報告 .................................................... 208
11.13 可視化超參數值的效果 ................................................. 209
第12 章 模型選擇 ............................................................................ 213
12.0 簡介 .................................................... 213
12.1 使用窮舉搜尋選擇最佳模型 .......................................................... 213
12.2 使用隨機搜尋選擇最佳模型 .......................................................... 216
12.3 從多種學習算法中選擇最佳模型.................. 218
12.4 將數據預處理加入模型選擇過程 .............................. 220
12.5 用並行化加速模型選擇 ................................. 221
12.6 使用針對特定算法的方法加速模型選擇 ....................................... 223
12.7 模型選擇後的性能評估 ............................ 224
第13 章 線性回歸 ............................................................................ 227
13.0 簡介 ........................................ 227
13.1 擬合一條直線 .......................................... 227
13.2 處理特徵之間的影響 ..................................................................... 229
13.3 擬合非線性關係 ............................................................................ 231
13.4 通過正則化減少方差 ..................................................................... 233
13.5 使用套索回歸減少特徵 .............................................. 235
第14 章 樹和森林 ............................................................................ 237
14.0 簡介 ............................... 237
14.1 訓練決策樹分類器 ......................................................................... 237
14.2 訓練決策樹回歸模型 ..................................................................... 239
14.3 可視化決策樹模型 ......................................................................... 240
14.4 訓練隨機森林分類器 ..................................................................... 243
14.5 訓練隨機森林回歸模型 ............................ 244
14.6 識別隨機森林中的重要特徵 .......................................................... 245
14.7 選擇隨機森林中的重要特徵 .......................................................... 248
14.8 處理不均衡的分類 ......................................................................... 249
14.9 控制決策樹的規模 ......................................................................... 250
14.10 通過boosting 提高性能 ................................................................ 252
14.11 使用袋外誤差(Out-of-Bag Error)評估隨機森林模型 ................ 253
第15 章 KNN ................................................................................... 255
15.0 簡介 ................................................................... 255
15.1 找到一個觀察值的最近鄰 ................................................. 255
15.2 創建一個KNN 分類器................................................................... 258
15.3 確定最佳的鄰域點集的大小 .......................................................... 260
15.4 創建一個基於半徑的最近鄰分類器 ......................... 261
第16 章 邏輯回歸 ............................................................................ 263
16.0 簡介 ............................................................... 263
16.1 訓練二元分類器 ............................................................................ 263
16.2 訓練多元分類器 ............................................................................ 265
16.3 通過正則化來減小方差 ............................................. 266
16.4 在超大數據集上訓練分類器 .......................................................... 267
16.5 處理不均衡的分類 ......................................................................... 269
第17 章 支持向量機 ......................................................................... 271
17.0 簡介 ..................................................................... 271
17.1 訓練一個線性分類器 ..................................................................... 271
17.2 使用核函式處理線性不可分的數據 ..................................... 274
17.3 計算預測分類的機率 ..................................................................... 278
17.4 識別支持向量 ....................................................... 279
17.5 處理不均衡的分類 ......................................................................... 281
第18 章 樸素貝葉斯 ......................................................................... 283
18.0 簡介 ............................................................. 283
18.1 為連續的數據訓練分類器 ............................................. 284
18.2 為離散數據和計數數據訓練分類器 ............................... 286
18.3 為具有二元特徵的數據訓練樸素貝葉斯分類器 ............................ 287
18.4 校準預測機率 ........................................ 288
第19 章 聚類 ................................................................................... 291
19.0 簡介 ................................................................ 291
19.1 使用K-Means 聚類算法 ................................................................ 291
19.2 加速K-Means 聚類 ........................................................................ 294
19.3 使用Meanshift 聚類算法 ............................................................... 295
19.4 使用DBSCAN 聚類算法 ............................................................... 296
19.5 使用層次合併聚類算法 .......................................... 298
第20 章 神經網路 ............................................................................ 301
20.0 簡介 ...................................................................... 301
20.1 為神經網路預處理數據 .................................................... 302
20.2 設計一個神經網路 ......................................................................... 304
20.3 訓練一個二元分類器 ..................................................................... 307
20.4 訓練一個多元分類器 ..................................................................... 309
20.5 訓練一個回歸模型 ......................................................................... 311
20.6 做預測 ........................................................................................... 313
20.7 可視化訓練歷史 ............................................................................ 315
20.8 通過權重調節減少過擬合 ..................................... 318
20.9 通過提前結束減少過擬合 ........................................ 320
20.10 通過Dropout 減少過擬合 ............................................................. 322
20.11 保存模型訓練過程 ......................................................................... 324
20.12 使用k 折交叉驗證評估神經網路 ................................................ 326
20.13 調校神經網路 ........................................................................ 328
20.14 可視化神經網路 ............................................................................ 331
20.15 圖像分類 ....................................................................................... 333
20.16 通過圖像增強來改善卷積神經網路的性能 .............................. 337
20.17 文本分類 ....................................................................................... 339
第21 章 保存和載入訓練後的模型 ..................................................... 343
21.0 簡介 ....................................................................................... 343
21.1 保存和載入scikit-learn 模型 ......................................................... 343
21.2 保存和載入Keras 模型 .................................................................. 345

相關詞條

熱門詞條

聯絡我們