深入理解機器學習：從原理到算法

內容簡介

本書涵蓋了機器學習領域中的嚴謹理論和實用方法，討論了學習的計算複雜度、凸性和穩定性、PAC-貝葉斯方法、壓縮界等概念，並介紹了一些重要的算法範式，包括隨機梯度下降、神經元網路以及結構化輸出。全書講解全面透徹，適合有一定基礎的高年級本科生和研究生學習紙轎良殼，也適合作為IT行業從事數據分析和挖掘的專業人員以及研究人員參考閱讀。

圖書目錄

出版者的話

譯者序

前言

致謝

第1章引論1

1.1什麼是學習1

1.2什麼時候需要機器學習2

1.3學習的種類3

1.4與其他領域的關係4

1.5如何閱讀本書4

1.6符號6

第一部分理論基礎

第2章簡易入門10

2.1一般模型——統計學習理論框架10

2.2經驗風險最小化11

2.3考慮歸納偏置的經驗風險最小化12

2.4練習15

第3章一般學習模型17

3.1PAC學習理論17

3.2更常見的學習模型18

3.2.1放寬可實現假設——不可知PAC學習18

3.2.2學習問題建模19

3.3小結21

3.4文獻評註21

3.5練習21

第4章學習過程的一致收斂性24

4.1一致收斂是可學習的充分條件24

4.2有限類是不可知PAC可學習的25

4.3小結26

4.4文獻評註27

4.5練習27

第5章偏差與複雜性權衡28

5.1“沒有免費的午餐”定理28

5.2誤差分解31

5.3小結31

5.4文獻評註32

5.5練習32

第6章VC維33

6.1無限的類也可學習33

6.2VC維概述34

6.3實例35

6.3.1閾值函式35

6.3.2區間35

6.3.3平行於軸的矩形35

6.3.4有限捆道愚類36

6.3.5VC維與參數個數36

6.4PAC學習的基本定理36

6.5定理6.7的證明37

6.5.1Sauer引理及生長函式37

6.5.2有小的有效規模的類的一致收斂性39

6.6小結40

6.7文獻評註41

6.8練習41

第7章不一致可學習44

7.1不一致可學習概述44

7.2結構風險最小化46

7.3最小描述長度和奧卡姆剃刀48

7.4可學習的其他概念——一致收斂性50

7.5探討不同的可學習概念51

7.6小結53

7.7文獻評註53

7.8練習54

第8章學習的運行時間56

8.1機器學習的計算複雜度56

8.2ERM規則的實現58

8.2.1有限集58

8.2.2軸乎歡茅鍵對稱矩形59

8.2.3布爾合取式59

8.2.4學習三項析取範式60

8.3高效學習，而不通過合適的ERM60

8.4學習探乘頁的難度*61

8.5小結62

8.6文獻評註62

8.7練習62

第二部分從理論到算法

第9章線性預測66

9.1半空間66

9.1.1半空間類線性規劃67

9.1.2半空間感知器68

9.1.3半空間的VC維69

9.2線性回歸70

9.2.1最小平方70

9.2.2多項式線性回歸71

9.3邏輯斯諦回歸72

9.4小結73

9.5文獻評註73

9.6練習73

第10章boosting75

10.1弱可學習75

10.2AdaBoost78

10.3基礎假設類的線性組合80

10.4AdaBoost用於人套嘗臉識別82

10.5小結83

10.6文獻評註83

10.7練習84

第11章模型墊諒駝選擇與驗證85

11.1用結構風險最小化進行模型選擇85

11.2驗證法86

11.2.1留出的樣本集86

11.2.2模型選擇的驗證法87

11.2.3模型選擇曲線88

11.2.4k折交叉驗證88

11.2.5訓練驗證測試拆分89

11.3如果學習失敗了應該做什麼89

11.4小結92

11.5練習92

第12章凸學習問題93

12.1凸性、利普希茨性和光滑性93

12.1.1凸性93

12.1.2利普希茨性96

12.1.3光滑性97

12.2凸學習問題概述98

12.2.1凸學習問題的可學習性99

12.2.2凸利普希茨/光滑有界學習問題100

12.3替代損失函式101

12.4小結102

12.5文獻評註102

12.6練習102

第13章正則化和穩定性104

13.1正則損失最小化104

13.2穩定規則不會過擬合105

13.3Tikhonov正則化作為穩定劑106

13.3.1利普希茨損失108

13.3.2光滑和非負損失108

13.4控制適合與穩定性的權衡109

13.5小結111

13.6文獻評註111

13.7練習111

第14章隨機梯度下降114

14.1梯度下降法114

14.2次梯度116

14.2.1計算次梯度117

14.2.2利普希茨函式的次梯度118

14.2.3次梯度下降118

14.3隨機梯度下降118

14.4SGD的變型120

14.4.1增邀夜囑加一個投影步120

14.4.2變步長121

14.4.3其他平均技巧121

14.4.4強凸函式*121

14.5用SGD進行學習123

14.5.1SGD求解風險極小化123

14.5.2SGD求解凸光滑學習問題的分析124

14.5.3SGD求解正則化損失極小化125

14.6小結125

14.7文獻評註125

14.8練習126

第15章支持向量機127

15.1間隔與硬SVM127

15.1.1齊次情況129

15.1.2硬SVM的樣本複雜度129

15.2軟SVM與範數正則化130

15.2.1軟SVM的樣本複雜度131

15.2.2間隔、基於範數的界與維度131

15.2.3斜坡損失*132

15.3最最佳化條件與“支持向量”*133

15.4對偶*133

15.5用隨機梯度下降法實現軟SVM134

15.6小結135

15.7文獻評註135

15.8練習135

第16章核方法136

16.1特徵空間映射136

16.2核技巧137

16.2.1核作為表達先驗的一種形式140

16.2.2核函式的特徵*141

16.3軟SVM套用核方法141

16.4小結142

16.5文獻評註143

16.6練習143

第17章多分類、排序與複雜預測問題145

17.1一對多和一對一145

17.2線性多分類預測147

17.2.1如何構建Ψ147

17.2.2對損失敏感的分類148

17.2.3經驗風險最小化149

17.2.4泛化合頁損失149

17.2.5多分類SVM和SGD150

17.3結構化輸出預測151

17.4排序153

17.5二分排序以及多變數性能測量157

17.6小結160

17.7文獻評註160

17.8練習161

第18章決策樹162

18.1採樣複雜度162

18.2決策樹算法163

18.2.1增益測量的實現方式164

18.2.2剪枝165

18.2.3實值特徵基於閾值的拆分規則165

18.3隨機森林165

18.4小結166

18.5文獻評註166

18.6練習166

第19章最近鄰167

19.1k近鄰法167

19.2分析168

19.2.11NN準則的泛化界168

19.2.2“維數災難”170

19.3效率實施*171

19.4小結171

19.5文獻評註171

19.6練習171

第20章神經元網路174

20.1前饋神經網路174

20.2神經網路學習175

20.3神經網路的表達力176

20.4神經網路樣本複雜度178

20.5學習神經網路的運行時179

20.6SGD和反向傳播179

20.7小結182

20.8文獻評註183

20.9練習183

第三部分其他學習模型

第21章線上學習186

21.1可實現情況下的線上分類186

21.2不可實現情況下的線上識別191

21.3線上凸最佳化195

21.4線上感知器算法197

21.5小結199

21.6文獻評註199

21.7練習199

第22章聚類201

22.1基於連結的聚類算法203

22.2k均值算法和其他代價最小聚類203

22.3譜聚類206

22.3.1圖割206

22.3.2圖拉普拉斯與鬆弛圖割算法206

22.3.3非歸一化的譜聚類207

22.4信息瓶頸*208

22.5聚類的進階觀點208

22.6小結209

22.7文獻評註210

22.8練習210

第23章維度約簡212

23.1主成分分析212

23.1.1當dm時一種更加有效的求解方法214

23.1.2套用與說明214

23.2隨機投影216

23.3壓縮感知217

23.4PCA還是壓縮感知223

23.5小結223

23.6文獻評註223

23.7練習223

第24章生成模型226

24.1極大似然估計226

24.1.1連續隨機變數的極大似然估計227

24.1.2極大似然與經驗風險最小化228

24.1.3泛化分析228

24.2樸素貝葉斯229

24.3線性判別分析230

24.4隱變數與EM算法230

24.4.1EM是交替最大化算法232

24.4.2混合高斯模型參數估計的EM算法233

24.5貝葉斯推理233

24.6小結235

24.7文獻評註235

24.8練習235

第25章特徵選擇與特徵生成237

25.1特徵選擇237

25.1.1濾波器238

25.1.2貪婪選擇方法239

25.1.3稀疏誘導範數241

25.2特徵操作和歸一化242

25.3特徵學習244

25.4小結246

25.5文獻評註246

25.6練習246

第四部分高級理論

第26章拉德馬赫複雜度250

26.1拉德馬赫複雜度概述250

26.2線性類的拉德馬赫複雜度255

26.3SVM的泛化誤差界256

26.4低1範數預測器的泛化誤差界258

26.5文獻評註259

第27章覆蓋數260

27.1覆蓋260

27.2通過鏈式反應從覆蓋到拉德馬赫複雜度261

27.3文獻評註262

第28章學習理論基本定理的證明263

28.1不可知情況的上界263

28.2不可知情況的下界264

28.2.1證明m(ε，δ)≥0.5log(1/(4δ))/ε2264

28.2.2證明m(ε，1/8)≥8d/ε2265

28.3可實現情況的上界267

第29章多分類可學習性271

29.1納塔拉詹維271

29.2多分類基本定理271

29.3計算納塔拉詹維272

29.3.1基於類的一對多272

29.3.2一般的多分類到二分類約簡273

29.3.3線性多分類預測器273

29.4好的與壞的ERM274

29.5文獻評註275

29.6練習276

第30章壓縮界277

30.1壓縮界概述277

30.2例子278

30.2.1平行於軸的矩形278

30.2.2半空間279

30.2.3可分多項式279

30.2.4間隔可分的情況279

30.3文獻評註280

第31章PAC貝葉斯281

31.1PAC貝葉斯界281

31.2文獻評註282

31.3練習282

附錄A技術性引理284

附錄B測度集中度287

附錄C線性代數294

參考文獻297

索引305

作者簡介

沙伊·沙萊夫-施瓦茨（Shai Shalev-Shwartz）　以色列希伯來大學計算機及工程學院副教授，還在Mobileye公司研究自動駕駛。2009年之前他在芝加哥的豐田技術研究所工作。他的研究方向是機器學習算法。

沙伊·本-戴維（Shai Ben-David）　加拿大滑鐵盧大學計算機科學學院教授。先後在以色列理工學院、澳大利亞國立大學和康奈爾大學任教。

深入理解機器學習：從原理到算法

基本介紹

內容簡介

圖書目錄

作者簡介

作者簡介

相關詞條

熱門詞條