機器學習公式詳解第2版

內容簡介

周志辨陵再淚華老師的《機器學習》（俗稱“西瓜書”）是機器學習領域的經典入門教材之一地棗詢。本書是《機器學習公式詳解》（俗稱“南瓜書”）的第2 版。相較於第1 版，本書對“西瓜書”中除了公式以外的重、難點內容加以解析，以過來人視角給出學習建議，旨在對比較難理解的公式和重點內容擴充具體的例子說明，以及對跳步過大的公式補充具體的推導細節。

全書共16 章，與“西瓜書”章節、公式對應，每個公式的推導和解釋都以旋婆本科數學基礎的視角進行講解，希望能夠幫助讀者快速掌握各個機器學習算法背後的數學原理。

本書思路清晰，視角獨特，結構合理，可作為高等院校計算機及相關專業的本科生或研究生教材，也可供對機器學習感興趣的研究人員和工程技術人員閱讀參考

圖書目錄

序（王斌小米AI 實驗室主任、NLP 首席科學家）

前言

主要符號表

資源與支持

第 1 章緒論 1

1.1 引言 1

1.2 基本術語 1

1.3 假設空間 5

1.4 歸納偏好 5

1.4.1 式(1.1) 和式(1.2) 的解釋 6

第 2 章模型評估與選擇 8

2.1 經驗誤差與過擬陵巴去合 8

2.2 評估方法 9

2.2.1 算法參數（超參數）與模型參數 10

2.2.2 驗證集 10

2.3 性能度量 11

2.3.1 式(2.2) ～式(2.7) 的解釋 11

2.3.2 式(2.8) 和式(2.9) 的解釋 11

2.3.3 圖2.3 的解釋 11

2.3.4 式(2.10) 的推愉船潤導 11

2.3.5 式(2.11) 的解釋 12

2.3.6 式(2.12) ～式(2.17) 的解釋 13

2.3.7 式(2.18) 和式(2.19) 的解釋 13

2.3.8 式(2.20) 的推導 14

2.3.9 式(2.21) 和式(2.22) 的推導 16

2.3.10 式(2.23) 的解釋 18

2.3.11 式(2.24) 的解釋 19

2.3.12 式(2.25) 的解釋 20

2.4 比較檢驗 22

2.4.1 式(2.26) 的解釋 22

2.4.2 式(2.27) 的推導 23

2.5 偏差與方差 26

2.5.1 式(2.37) ～式(2.42) 的推導 26

參考文獻 29

第3 章線性模型奔才罪 30

3.1 基本形式 30

3.2 線性回歸 30

3.2.1 屬性數值化 30

3.2.2 式(3.4) 的解釋 31

3.2.3 式(3.5) 的推導 32

3.2.4 式(3.6) 的推導 32

3.2.5 式(3.7) 的推導 33

3.2.6 式(3.9) 的推導 35

3.2.7 式(3.10) 的推導 36

3.2.8 式(3.11) 的推導 36

3.3 對率回歸 39

3.3.1 式(3.27) 的推導 39

3.3.2 梯度下降法 41

3.3.3 牛頓法 42

3.3.4 式(3.29) 的解釋 44

3.3.5 式(3.30) 的推導 44

3.3.6 式(3.31) 的推導 45

3.4 線性判別分析 46

3.4.1 式(3.32) 的推導 46

3.4.2 式(3.37) ～式(3.39) 的推導 47

3.4.3 式(3.43) 的推導 48

3.4.4 式(3.44) 的推導 48

3.4.5 式(3.45) 的推導 49

3.5 多分類學習 52

3.5.1 圖3.5 的解釋 52

3.6 類別不平衡問題 52

參考文獻 52

第4 章決策樹 53

4.1 基本流程 53

4.2 劃分選擇 54

4.2.1 式(4.1) 的解釋 54

4.2.2 式(4.2) 的解釋 58

4.2.3 式(4.4) 的解釋 58

4.2.4 式(4.5) 的推導 59

4.2.5 式(4.6) 的解釋 59

4.3 剪枝處理 62

4.4 連續值與缺失值 63

4.4.1 式(4.7) 的解釋 63

4.4.2 式(4.8) 的解釋 64

4.4.3 式(4.12) 的解釋 64

4.5 多變數決策樹 64

4.5.1 圖4.10 的解釋 65

4.5.2 圖4.11 的解釋 65

參考文獻 66

第5 章神經網路 67

5.1 神經元照巴腿笑模型 67

5.2 感知機與多層網路 67

5.2.1 式(5.1) 和式(5.2) 的推導 67

5.2.2 圖5.5 的解釋 70

5.3 誤差逆傳播算法 70

5.3.1 式(5.10) 的推導 70

5.3.2 式(5.12) 的推導 70

5.3.3 式(5.13) 的推導 71

5.3.4 式(5.14) 的推導 72

5.3.5 式(5.15) 的推導 73

5.4 全局小與局部極小 73

5.5 其他常見神經網路 73

5.5.1 式(5.18) 的解釋 73

5.5.2 式(5.20) 的解釋 73

5.5.3 式(5.22) 的解釋 74

5.5.4 式(5.23) 的解釋 74

5.6 深度學習 74

5.6.1 什麼是深度學習 75

5.6.2 深度學習的起源 75

5.6.3 怎么理解特徵學習 75

參考文獻 75

第6 章支持向量機 77

6.1 間隔與支持向量 77

6.1.1 圖6.1 的解釋 77

6.1.2 式(6.1) 的解釋 77

6.1.3 式(6.2) 的推導 78

6.1.4 式(6.3) 的推導 78

6.1.5 式(6.4) 的推導 80

6.1.6 式(6.5) 的解釋 80

6.2 對偶問題 80

6.2.1 凸最佳化問題 80

6.2.2 KKT 條件 80

6.2.3 拉格朗日對偶函式 81

6.2.4 拉格朗日對偶問題 82

6.2.5 式(6.9) 和式(6.10) 的推導 85

6.2.6 式(6.11) 的推導 85

6.2.7 式(6.13) 的解釋 86

6.3 核函式 87

6.3.1 式(6.22) 的解釋 87

6.4 軟間隔與正則化 87

6.4.1 式(6.35) 的推導 87

6.4.2 式(6.37) 和式(6.38) 的推導 87

6.4.3 式(6.39) 的推導 87

6.4.4 式(6.40) 的推導 88

6.4.5 對率回歸與支持向量機的關係 88

6.4.6 式(6.41) 的解釋 89

6.5 支持向量回歸 89

6.5.1 式(6.43) 的解釋 89

6.5.2 式(6.45) 的推導 90

6.5.3 式(6.52) 的推導 91

6.6 核方法 92

6.6.1 式(6.57) 和式(6.58) 的解釋 92

6.6.2 式(6.65) 的推導 92

6.6.3 式(6.66) 和式(6.67) 的解釋 93

6.6.4 式(6.70) 的推導 94

6.6.5 核對率回歸 98

參考文獻 99

第7 章貝葉斯分類器 100

7.1 貝葉斯決策論 100

7.1.1 式(7.5) 的推導 100

7.1.2 式(7.6) 的推導 100

7.1.3 判別式模型與生成式模型 100

7.2 極大似然估計 101

7.2.1 式(7.12) 和式(7.13) 的推導 101

7.3 樸素貝葉斯分類器 104

7.3.1 式(7.16) 和式(7.17) 的解釋 104

7.3.2 式(7.18) 的解釋 104

7.3.3 貝葉斯估計 105

7.3.4 Categorical 分布 105

7.3.5 Dirichlet 分布 106

7.3.6 式(7.19) 和式(7.20) 的推導 106

7.4 半樸素貝葉斯分類器 110

7.4.1 式(7.21) 的解釋 110

7.4.2 式(7.22) 的解釋 111

7.4.3 式(7.23) 的推導 111

7.4.4 式(7.24) 和式(7.25) 的推導 112

7.5 貝葉斯網 112

7.5.1 式(7.27) 的解釋 112

7.6 EM 算法 113

7.6.1 Jensen 不等式 113

7.6.2 EM 算法的推導 113

參考文獻 121

第8 章集成學習 122

8.1 個體與集成 123

8.1.1 式(8.1) 的解釋 123

8.1.2 式(8.2) 的解釋 123

8.1.3 式(8.3) 的推導 123

8.2 Boosting 124

8.2.1 式(8.4) 的解釋 125

8.2.2 式(8.5) 的解釋 125

8.2.3 式(8.6) 的推導 126

8.2.4 式(8.7) 的推導 126

8.2.5 式(8.8) 的推導 127

8.2.6 式(8.9) 的推導 127

8.2.7 式(8.10) 的解釋 128

8.2.8 式(8.11) 的推導 128

8.2.9 式(8.12) 的解釋 129

8.2.10 式(8.13) 的推導 129

8.2.11 式(8.14) 的推導 130

8.2.12 式(8.16) 的推導 131

8.2.13 式(8.17) 的推導 131

8.2.14 式(8.18) 的推導 132

8.2.15 式(8.19) 的推導 132

8.2.16 AdaBoost 的個人推導 133

8.2.17 進一步理解權重更新公式 137

8.2.18 能夠接受帶權樣本的基學習算法 139

8.3 Bagging 與隨機森林 140

8.3.1 式(8.20) 的解釋 140

8.3.2 式(8.21) 的推導 140

8.3.3 隨機森林的解釋 141

8.4 結合策略 141

8.4.1 式(8.22) 的解釋 141

8.4.2 式(8.23) 的解釋 141

8.4.3 硬投票和軟投票的解釋 141

8.4.4 式(8.24) 的解釋 142

8.4.5 式(8.25) 的解釋 142

8.4.6 式(8.26) 的解釋 142

8.4.7 元學習器的解釋 142

8.4.8 Stacking 算法的解釋 143

8.5 多樣性 143

8.5.1 式(8.27) 的解釋 143

8.5.2 式(8.28) 的解釋 143

8.5.3 式(8.29) 的解釋 143

8.5.4 式(8.30) 的解釋 144

8.5.5 式(8.31) 的推導 144

8.5.6 式(8.32) 的解釋 144

8.5.7 式(8.33) 的解釋 145

8.5.8 式(8.34) 的解釋 145

8.5.9 式(8.35) 的解釋 145

8.5.10 式(8.36) 的解釋 145

8.5.11 式(8.40) 的解釋 145

8.5.12 式(8.41) 的解釋 146

8.5.13 式(8.42) 的解釋 146

8.5.14 多樣性增強的解釋 146

8.6 Gradient Boosting、GBDT、XGBoost的聯繫與區別 147

8.6.1 從梯度下降的角度解釋AdaBoost 147

8.6.2 梯度提升 149

8.6.3 梯度提升樹(GBDT) 151

8.6.4 XGBoost 152

參考文獻 152

第9 章聚類 153

9.1 聚類任務 153

9.2 性能度量 153

9.2.1 式(9.5) 的解釋 153

9.2.2 式(9.6) 的解釋 155

9.2.3 式(9.7) 的解釋 155

9.2.4 式(9.8) 的解釋 156

9.2.5 式(9.12) 的解釋 156

9.3 距離計算 156

9.3.1 式(9.21) 的解釋 156

9.4 原型聚類 157

9.4.1 式(9.28) 的解釋 157

9.4.2 式(9.29) 的解釋 157

9.4.3 式(9.30) 的解釋 158

9.4.4 式(9.31) 的解釋 159

9.4.5 式(9.32) 的解釋 159

9.4.6 式(9.33) 的推導 160

9.4.7 式(9.34) 的推導 161

9.4.8 式(9.35) 的推導 162

9.4.9 式(9.36) 的解釋 164

9.4.10 式(9.37) 的推導 164

9.4.11 式(9.38) 的推導 165

9.4.12 圖9.6 的解釋 166

9.5 密度聚類 166

9.5.1 密度直達、密度可達與密度相連 167

9.5.2 圖9.9 的解釋 168

9.6 層次聚類 168

第 10 章降維與度量學習 170

10.1 預備知識 170

10.1.1 符號約定 170

10.1.2 矩陣與單位陣、向量的乘法 170

10.2 矩陣的F 範數與跡 171

10.3 k 近鄰學習 173

10.3.1 式(10.1) 的解釋 173

10.3.2 式(10.2) 的推導 174

10.4 低維嵌入 175

10.4.1 圖10.2 的解釋 175

10.4.2 式(10.3) 的推導 175

10.4.3 式(10.4) 的推導 176

10.4.4 式(10.5) 的推導 177

10.4.5 式(10.6) 的推導 177

10.4.6 式(10.10) 的推導 178

10.4.7 式(10.11) 的解釋 179

10.4.8 圖10.3 關於MDS 算法的解釋 179

10.5 主成分分析 180

10.5.1 式(10.14) 的推導 180

10.5.2 式(10.16) 的解釋 184

10.5.3 式(10.17) 的推導 186

10.5.4 根據式(10.17) 求解式(10.16) 188

10.6 核化線性降維 188

10.6.1 式(10.19) 的解釋 189

10.6.2 式(10.20) 的解釋 189

10.6.3 式(10.21) 的解釋 190

10.6.4 式(10.22) 的解釋 190

10.6.5 式(10.24) 的推導 190

10.6.6 式(10.25) 的解釋 191

10.7 流形學習 191

10.7.1 等度量映射(Isomap) 的解釋 191

10.7.2 式(10.28) 的推導 192

10.7.3 式(10.31) 的推導 194

10.8 度量學習 196

10.8.1 式(10.34) 的解釋 196

10.8.2 式(10.35) 的解釋 197

10.8.3 式(10.36) 的解釋 197

10.8.4 式(10.37) 的解釋 198

10.8.5 式(10.38) 的解釋 198

10.8.6 式(10.39) 的解釋 198

參考文獻 199

第 11 章特徵選擇與稀疏學習 200

11.1 子集搜尋與評價 200

11.1.1 式(11.1) 的解釋 200

11.1.2 式(11.2) 的解釋 200

11.2 過濾式選擇 201

11.3 包裹式選擇 201

11.4 嵌入式選擇與L1 正則化 202

11.4.1 式(11.5) 的解釋 202

11.4.2 式(11.6) 的解釋 202

11.4.3 式(11.7) 的解釋 203

11.4.4 式(11.8) 的解釋 203

11.4.5 式(11.9) 的解釋 203

11.4.6 式(11.10) 的推導 203

11.4.7 式(11.11) 的解釋 205

11.4.8 式(11.12) 的解釋 205

11.4.9 式(11.13) 的解釋 205

11.4.10 式(11.14) 的推導 205

11.5 稀疏表示與字典學習 208

11.5.1 式(11.15) 的解釋 208

11.5.2 式(11.16) 的解釋 208

11.5.3 式(11.17) 的推導 208

11.5.4 式(11.18) 的推導 208

11.6 壓縮感知 213

11.6.1 式(11.21) 的解釋 213

11.6.2 式(11.25) 的解釋 213

參考文獻 214

第 12 章計算學習理論 215

12.1 基礎知識 215

12.1.1 式(12.1) 的解釋 216

12.1.2 式(12.2) 的解釋 216

12.1.3 式(12.3) 的解釋 216

12.1.4 式(12.4) 的解釋 216

12.1.5 式(12.5) 和式(12.6) 的解釋 216

12.1.6 式(12.7) 的解釋 217

12.2 PAC 學習 217

12.2.1 式(12.9) 的解釋 218

12.3 有限假設空間 218

12.3.1 式(12.10) 的解釋 219

12.3.2 式(12.11) 的解釋 219

12.3.3 式(12.12) 的推導 219

12.3.4 式(12.13) 的解釋 220

12.3.5 式(12.14) 的推導 220

12.3.6 引理12.1 的解釋 221

12.3.7 式(12.18) 的推導 221

12.3.8 式(12.19) 的推導 221

12.3.9 式(12.20) 的解釋 222

12.4 VC 維 223

12.4.1 式(12.21) 的解釋 223

12.4.2 式(12.22) 的解釋 223

12.4.3 式(12.23) 的解釋 224

12.4.4 引理12.2 的解釋 224

12.4.5 式(12.28) 的解釋 226

12.4.6 式(12.29) 的解釋 227

12.4.7 式(12.30) 的解釋 227

12.4.8 定理12.4 的解釋 228

12.5 Rademacher 複雜度 229

12.5.1 式(12.36) 的解釋 229

12.5.2 式(12.37) 的解釋 229

12.5.3 式(12.38) 的解釋 230

12.5.4 式(12.39) 的解釋 230

12.5.5 式(12.40) 的解釋 231

12.5.6 式(12.41) 的解釋 231

12.5.7 定理12.5 的解釋 231

12.6 定理12.6 的解釋 233

12.6.1 式(12.52) 的證明 235

12.6.2 式(12.53) 的推導 235

12.7 穩定性 235

12.7.1 泛化損失/經驗損失/留一損失的解釋 236

12.7.2 式(12.57) 的解釋 236

12.7.3 定理12.8 的解釋 236

12.7.4 式(12.60) 的推導 237

12.7.5 經驗損失小化 237

12.7.6 定理12.9 的證明的解釋 237

參考文獻 238

第 13 章半監督學習 240

13.1 未標記樣本 240

13.2 生成式方法 240

13.2.1 式(13.1) 的解釋 241

13.2.2 式(13.2) 的推導 241

13.2.3 式(13.3) 的推導 242

13.2.4 式(13.4) 的推導 242

13.2.5 式(13.5) 的解釋 242

13.2.6 式(13.6) 的解釋 243

13.2.7 式(13.7) 的解釋 244

13.2.8 式(13.8) 的解釋 246

13.3 半監督SVM 248

13.3.1 圖13.3 的解釋 248

13.3.2 式(13.9) 的解釋 248

13.3.3 圖13.4 的解釋 248

13.3.4 式(13.10) 的解釋 250

13.4 圖半監督學習 250

13.4.1 式(13.12) 的推導 251

13.4.2 式(13.13) 的推導 252

13.4.3 式(13.14) 的推導 253

13.4.4 式(13.15) 的推導 253

13.4.5 式(13.16) 的解釋 254

13.4.6 式(13.17) 的推導 254

13.4.7 式(13.18) 的解釋 254

13.4.8 式(13.20) 的解釋 254

13.4.9 式(13.21) 的推導 255

13.5 基於分歧的方法 259

13.5.1 圖13.6 的解釋 259

13.6 半監督聚類 260

13.6.1 圖13.7 的解釋 260

13.6.2 圖13.9 的解釋 260

參考文獻 260

第 14 章機率圖模型 261

14.1 隱馬爾可夫模型 261

14.1.1 生成式模型和判別式模型 261

14.1.2 式(14.1) 的推導 262

14.1.3 隱馬爾可夫模型的三組參數 263

14.2 馬爾可夫隨機場 263

14.2.1 式(14.2) 和式(14.3) 的解釋 263

14.2.2 式(14.4) ～式(14.7) 的推導 264

14.2.3 馬爾可夫毯 264

14.2.4 勢函式 265

14.2.5 式(14.8) 的解釋 265

14.2.6 式(14.9) 的解釋 265

14.3 條件隨機場 265

14.3.1 式(14.10) 的解釋 265

14.3.2 式(14.11) 的解釋 266

14.4 學習與推斷 266

14.4.1 式(14.14) 的推導 266

14.4.2 式(14.15) 和式(14.16) 的推導 266

14.4.3 式(14.17) 的解釋 267

14.4.4 式(14.18) 的推導 267

14.4.5 式(14.19) 的解釋 267

14.4.6 式(14.20) 的解釋 268

14.4.7 式(14.22) 的推導 268

14.4.8 圖14.8 的解釋 269

14.5 近似推斷 269

14.5.1 式(14.21) ～式(14.25) 的解釋 269

14.5.2 式(14.26) 的解釋 270

14.5.3 式(14.27) 的解釋 270

14.5.4 式(14.28) 的推導 270

14.5.5 吉布斯採樣與MH 算法 271

14.5.6 式(14.29) 的解釋 272

14.5.7 式(14.30) 的解釋 272

14.5.8 式(14.31) 的解釋 273

14.5.9 式(14.32) ～式(14.34) 的推導 273

14.5.10 式(14.35) 的解釋 274

14.5.11 式(14.36) 的推導 274

14.5.12 式(14.37) 和式(14.38) 的解釋 276

14.5.13 式(14.39) 的解釋 277

14.5.14 式(14.40) 的解釋 277

14.6 話題模型 278

14.6.1 式(14.41) 的解釋 278

14.6.2 式(14.42) 的解釋 279

14.6.3 式(14.43) 的解釋 279

14.6.4 式(14.44) 的解釋 279

參考文獻 279

第 15 章規則學習 280

15.1 剪枝最佳化 280

15.1.1 式(15.2) 和式(15.3) 的解釋 280

15.2 歸納邏輯程式設計 281

15.2.1 式(15.6) 的解釋 281

15.2.2 式(15.7) 的推導 281

15.2.3 式(15.9) 的推導 281

15.2.4 式(15.10) 的解釋 281

15.2.5 式(15.11) 的解釋 281

15.2.6 式(15.12) 的解釋 282

15.2.7 式(15.13) 的解釋 282

15.2.8 式(15.16) 的推導 282

第 16 章強化學習 283

16.1 任務與獎賞 283

16.2 K-搖臂賭博機 283

16.2.1 式(16.2) 和式(16.3) 的推導 283

16.2.2 式(16.4) 的解釋 283

16.3 有模型學習 284

16.3.1 式(16.7) 的解釋 284

16.3.2 式(16.8) 的推導 284

16.3.3 式(16.10) 的推導 285

16.3.4 式(16.14) 的解釋 285

16.3.5 式(16.15) 的解釋 285

16.3.6 式(16.16) 的推導 285

16.4 免模型學習 286

16.4.1 式(16.20) 的解釋 286

16.4.2 式(16.23) 的解釋 286

16.4.3 式(16.31) 的推導 286

16.5 值函式近似 287

16.5.1 式(16.33) 的解釋 287

16.5.2 式(16.34) 的推導 287

參考文獻 287

作者簡介

謝文睿

北京工業大學碩士，Datawhale開源項目負責人，百度算法工程師，研究方向為機器學習與自然語言處理。

秦州

康奈爾大學計算機碩士，Datawhale成員，阿里巴巴算法專家，研究方向為圖計算與自然語言處理，在NeurIPS、AAAI、CIKM等會議上錄用多篇學術論文並獲得CIKM 2019套用論文獎。

賈彬彬

工學博士，蘭州理工大學講師，研究方向為機器學習與數據挖掘，在TKDE、TNNLS、PRJ、ICML、AAAI等期刊和會議上共發表學術論文十餘篇，並擔任ICML、NeurIPS、ICLR、AAAI、IJCAI 等會議的程式委員會委員（PC Member）。

機器學習公式詳解第2版

基本介紹

內容簡介

圖書目錄

作者簡介

作者簡介

相關詞條

熱門詞條