機器學習常用算法速查手冊

《機器學習常用算法速查手冊》是2020年中國電力出版社出版的圖書。

基本介紹

中文名：機器學習常用算法速查手冊
作者：馬特哈里森
出版時間：2020年
出版社：中國電力出版社
ISBN：9787519849481
定價：88 元

內容簡介,圖書目錄,

內容簡介

本書涵蓋以下主題：

用鐵達尼號數據集講解分類。

清洗數據和處理缺失數據。

探索數據分析。

數據預處理的常用方法。

選擇對模型有用的特徵。

模型選擇。

度量標準和分類評估。

多種回歸分析技術。

評估回歸結果的度量標準。

聚類算法。

降維技術。

scikit-learn流水線。

圖書目錄

目錄

前言 1

第1 章機器學習入門 7

本書使用的庫 7

用pip 安裝庫 10

用conda 安裝庫12

第2 章機器學習流程概覽 15

第3 章數據分類工作流：鐵達尼號數據集 17

項目布局建議 17

導入 18

提出問題 19

數據術語 19

獲取數據 21

清洗數據 22

創建特徵 29

數據採樣 31

數據插值 31

規範數據 32

重構 33

基準模型 35

不同算法族 35

模型堆疊 37

建模 38

評估模型 38

最佳化模型 40

混淆矩陣 41

ROC 曲線 42

學習曲線 44

部署模型 45

第4 章數據缺失 47

檢查數據缺失情況 48

刪除缺數據的行或列 52

插值 53

添加標識列 54

第5 章清洗數據 55

處理列名 55

替換缺失值 56

第6 章探索數據 59

數據大小 59

匯總統計 60

直方圖 61

散點圖 62

Joint Plot 圖 63

Pair Grid 圖 66

箱形圖和小提琴圖 68

比較兩個序數型特徵 69

相關性 71

RadViz 圖 76

平行坐標圖 78

第7 章預處理數據 81

標準化 81

調整取值範圍 83

虛擬變數 84

標籤編碼 85

頻數編碼 86

從字元串抽取類別型數據 87

類別型數據的其他編碼方法 89

日期特徵的處理方法 91

添加col_na 特徵 92

特徵工程 93

第8 章特徵選擇 95

共線列 95

套索回歸 99

遞歸特徵消除 100

互信息 102

主成分分析 103

特徵重要性 103

第9 章類別不平衡 105

採用不同度量標準 105

樹模型和集成方法 105

懲罰模型 106

對小眾類別上採樣 106

生成小眾數據 107

對大眾類別下採樣 107

先上採樣，再下採樣 109

第10 章分類 111

對數機率回歸 112

樸素貝葉斯 117

支持向量機 120

k 近鄰 123

決策樹 126

隨機森林 133

XGBoost 138

LightGBM150

TPOT 155

第11 章模型選擇 161

驗證曲線 161

學習曲線 163

第12 章度量標準和分類評估 165

混淆矩陣 165

度量標準 168

準確率 170

召回率 171

精準率 171

f1 值 172

分類報告 172

ROC 曲線 173

精準率- 召回率曲線 175

累積增益圖 176

lift 曲線 178

類別平衡 180

類別預測錯誤 181

判別閾值 182

第13 章解釋模型 185

回歸係數 185

特徵重要性 186

LIME 包186

解釋樹模型 188

部分依賴圖 189

替代模型 193

Shapley 值 194

第14 章回歸 199

基準模型 201

線性回歸 202

支持向量機 206

k 近鄰 208

決策樹 210

隨機森林 217

XGBoost 回歸 220

LightGBM 回歸 228

第15 章度量標準和回歸模型的評估 233

度量標準 233

殘差圖 236

異方差性 237

殘差正態性 237

預測誤差圖 239

第16 章解釋回歸模型 241

Shapley 值 241

第17 章降維技術 247

PCA 方法 247

UMAP 方法 267

t-SNE 方法 273

PHATE 方法 277

第18 章聚類 283

k-means 算法 283

層次聚類 290

理解簇 293

第19 章流水線 299

分類流水線 299

回歸流水線 302

PCA 流水線 303

作者介紹 305

封面介紹 305

相關詞條

熱門詞條

聯絡我們