機器學習常用算法速查手冊

《機器學習常用算法速查手冊》是2020年中國電力出版社出版的圖書。

基本介紹

  • 中文名:機器學習常用算法速查手冊
  • 作者: 馬特哈里森
  • 出版時間:2020年
  • 出版社:中國電力出版社
  • ISBN:9787519849481 
  • 定價:88 元
內容簡介,圖書目錄,

內容簡介

本書涵蓋以下主題:
用鐵達尼號數據集講解分類。
清洗數據和處理缺失數據。
探索數據分析。
數據預處理的常用方法。
選擇對模型有用的特徵。
模型選擇。
度量標準和分類評估。
多種回歸分析技術。
評估回歸結果的度量標準。
聚類算法。
降維技術。
scikit-learn流水線。

圖書目錄

目錄
前言 1
第1 章 機器學習入門 7
本書使用的庫 7
用pip 安裝庫 10
用conda 安裝庫12
第2 章 機器學習流程概覽 15
第3 章 數據分類工作流:鐵達尼號數據集 17
項目布局建議 17
導入 18
提出問題 19
數據術語 19
獲取數據 21
清洗數據 22
創建特徵 29
數據採樣 31
數據插值 31
規範數據 32
重構 33
基準模型 35
不同算法族 35
模型堆疊 37
建模 38
評估模型 38
最佳化模型 40
混淆矩陣 41
ROC 曲線 42
學習曲線 44
部署模型 45
第4 章 數據缺失 47
檢查數據缺失情況 48
刪除缺數據的行或列 52
插值 53
添加標識列 54
第5 章 清洗數據 55
處理列名 55
替換缺失值 56
第6 章 探索數據 59
數據大小 59
匯總統計 60
直方圖 61
散點圖 62
Joint Plot 圖 63
Pair Grid 圖 66
箱形圖和小提琴圖 68
比較兩個序數型特徵 69
相關性 71
RadViz 圖 76
平行坐標圖 78
第7 章 預處理數據 81
標準化 81
調整取值範圍 83
虛擬變數 84
標籤編碼 85
頻數編碼 86
從字元串抽取類別型數據 87
類別型數據的其他編碼方法 89
日期特徵的處理方法 91
添加col_na 特徵 92
特徵工程 93
第8 章 特徵選擇 95
共線列 95
套索回歸 99
遞歸特徵消除 100
互信息 102
主成分分析 103
特徵重要性 103
第9 章 類別不平衡 105
採用不同度量標準 105
樹模型和集成方法 105
懲罰模型 106
對小眾類別上採樣 106
生成小眾數據 107
對大眾類別下採樣 107
先上採樣,再下採樣 109
第10 章 分類 111
對數機率回歸 112
樸素貝葉斯 117
支持向量機 120
k 近鄰 123
決策樹 126
隨機森林 133
XGBoost 138
LightGBM150
TPOT 155
第11 章 模型選擇 161
驗證曲線 161
學習曲線 163
第12 章 度量標準和分類評估 165
混淆矩陣 165
度量標準 168
準確率 170
召回率 171
精準率 171
f1 值 172
分類報告 172
ROC 曲線 173
精準率- 召回率曲線 175
累積增益圖 176
lift 曲線 178
類別平衡 180
類別預測錯誤 181
判別閾值 182
第13 章 解釋模型 185
回歸係數 185
特徵重要性 186
LIME 包186
解釋樹模型 188
部分依賴圖 189
替代模型 193
Shapley 值 194
第14 章 回歸 199
基準模型 201
線性回歸 202
支持向量機 206
k 近鄰 208
決策樹 210
隨機森林 217
XGBoost 回歸 220
LightGBM 回歸 228
第15 章 度量標準和回歸模型的評估 233
度量標準 233
殘差圖 236
異方差性 237
殘差正態性 237
預測誤差圖 239
第16 章 解釋回歸模型 241
Shapley 值 241
第17 章 降維技術 247
PCA 方法 247
UMAP 方法 267
t-SNE 方法 273
PHATE 方法 277
第18 章 聚類 283
k-means 算法 283
層次聚類 290
理解簇 293
第19 章 流水線 299
分類流水線 299
回歸流水線 302
PCA 流水線 303
作者介紹 305
封面介紹 305

相關詞條

熱門詞條

聯絡我們