內容簡介
本書涵蓋了機器學習領域中的嚴謹理論和實用方法,討論了學習的計算複雜度、凸性和穩定性、PAC-貝葉斯方法、壓縮界等概念,並介紹了一些重要的算法範式,包括隨機梯度下降、神經元網路以及結構化輸出。 全書講解全面透徹,適合有一定基礎的高年級本科生和研究生學習紙轎良殼,也適合作為IT行業從事數據分析和挖掘的專業人員以及研究人員參考閱讀。
圖書目錄
出版者的話
譯者序
前言
致謝
第1章引論1
1.1什麼是學習1
1.2什麼時候需要機器學習2
1.3學習的種類3
1.4與其他領域的關係4
1.5如何閱讀本書4
1.6符號6
第一部分理論基礎
第2章簡易入門10
2.1一般模型——統計學習理論框架10
2.2經驗風險最小化11
2.3考慮歸納偏置的經驗風險最小化12
2.4練習15
第3章一般學習模型17
3.1PAC學習理論17
3.2更常見的學習模型18
3.2.1放寬可實現假設——不可知PAC學習18
3.2.2學習問題建模19
3.3小結21
3.4文獻評註21
3.5練習21
第4章學習過程的一致收斂性24
4.1一致收斂是可學習的充分條件24
4.2有限類是不可知PAC可學習的25
4.3小結26
4.4文獻評註27
4.5練習27
第5章偏差與複雜性權衡28
5.1“沒有免費的午餐”定理28
5.2誤差分解31
5.3小結31
5.4文獻評註32
5.5練習32
第6章VC維33
6.1無限的類也可學習33
6.2VC維概述34
6.3實例35
6.3.1閾值函式35
6.3.2區間35
6.3.3平行於軸的矩形35
6.3.4有限捆道愚類36
6.3.5VC維與參數個數36
6.4PAC學習的基本定理36
6.5定理6.7的證明37
6.5.1Sauer引理及生長函式37
6.5.2有小的有效規模的類的一致收斂性39
6.6小結40
6.7文獻評註41
6.8練習41
第7章不一致可學習44
7.1不一致可學習概述44
7.2結構風險最小化46
7.3最小描述長度和奧卡姆剃刀48
7.4可學習的其他概念——一致收斂性50
7.5探討不同的可學習概念51
7.6小結53
7.7文獻評註53
7.8練習54
第8章學習的運行時間56
8.1機器學習的計算複雜度56
8.2ERM規則的實現58
8.2.1有限集58
8.2.2軸乎歡茅鍵對稱矩形59
8.2.3布爾合取式59
8.2.4學習三項析取範式60
8.3高效學習,而不通過合適的ERM60
8.4學習探乘頁的難度*61
8.5小結62
8.6文獻評註62
8.7練習62
第二部分從理論到算法
第9章線性預測66
9.1半空間66
9.1.1半空間類線性規劃67
9.1.2半空間感知器68
9.1.3半空間的VC維69
9.2線性回歸70
9.2.1最小平方70
9.2.2多項式線性回歸71
9.3邏輯斯諦回歸72
9.4小結73
9.5文獻評註73
9.6練習73
第10章boosting75
10.1弱可學習75
10.2AdaBoost78
10.3基礎假設類的線性組合80
10.4AdaBoost用於人套嘗臉識別82
10.5小結83
10.6文獻評註83
10.7練習84
第11章模型墊諒駝選擇與驗證85
11.1用結構風險最小化進行模型選擇85
11.2驗證法86
11.2.1留出的樣本集86
11.2.2模型選擇的驗證法87
11.2.3模型選擇曲線88
11.2.4k折交叉驗證88
11.2.5訓練驗證測試拆分89
11.3如果學習失敗了應該做什麼89
11.4小結92
11.5練習92
第12章凸學習問題93
12.1凸性、利普希茨性和光滑性93
12.1.1凸性93
12.1.2利普希茨性96
12.1.3光滑性97
12.2凸學習問題概述98
12.2.1凸學習問題的可學習性99
12.2.2凸利普希茨/光滑有界學習問題100
12.3替代損失函式101
12.4小結102
12.5文獻評註102
12.6練習102
第13章正則化和穩定性104
13.1正則損失最小化104
13.2穩定規則不會過擬合105
13.3Tikhonov正則化作為穩定劑106
13.3.1利普希茨損失108
13.3.2光滑和非負損失108
13.4控制適合與穩定性的權衡109
13.5小結111
13.6文獻評註111
13.7練習111
第14章隨機梯度下降114
14.1梯度下降法114
14.2次梯度116
14.2.1計算次梯度117
14.2.2利普希茨函式的次梯度118
14.2.3次梯度下降118
14.3隨機梯度下降118
14.4SGD的變型120
14.4.1增邀夜囑加一個投影步120
14.4.2變步長121
14.4.3其他平均技巧121
14.4.4強凸函式*121
14.5用SGD進行學習123
14.5.1SGD求解風險極小化123
14.5.2SGD求解凸光滑學習問題的分析124
14.5.3SGD求解正則化損失極小化125
14.6小結125
14.7文獻評註125
14.8練習126
第15章支持向量機127
15.1間隔與硬SVM127
15.1.1齊次情況129
15.1.2硬SVM的樣本複雜度129
15.2軟SVM與範數正則化130
15.2.1軟SVM的樣本複雜度131
15.2.2間隔、基於範數的界與維度131
15.2.3斜坡損失*132
15.3最最佳化條件與“支持向量”*133
15.4對偶*133
15.5用隨機梯度下降法實現軟SVM134
15.6小結135
15.7文獻評註135
15.8練習135
第16章核方法136
16.1特徵空間映射136
16.2核技巧137
16.2.1核作為表達先驗的一種形式140
16.2.2核函式的特徵*141
16.3軟SVM套用核方法141
16.4小結142
16.5文獻評註143
16.6練習143
第17章多分類、排序與複雜預測問題145
17.1一對多和一對一145
17.2線性多分類預測147
17.2.1如何構建Ψ147
17.2.2對損失敏感的分類148
17.2.3經驗風險最小化149
17.2.4泛化合頁損失149
17.2.5多分類SVM和SGD150
17.3結構化輸出預測151
17.4排序153
17.5二分排序以及多變數性能測量157
17.6小結160
17.7文獻評註160
17.8練習161
第18章決策樹162
18.1採樣複雜度162
18.2決策樹算法163
18.2.1增益測量的實現方式164
18.2.2剪枝165
18.2.3實值特徵基於閾值的拆分規則165
18.3隨機森林165
18.4小結166
18.5文獻評註166
18.6練習166
第19章最近鄰167
19.1k近鄰法167
19.2分析168
19.2.11NN準則的泛化界168
19.2.2“維數災難”170
19.3效率實施*171
19.4小結171
19.5文獻評註171
19.6練習171
第20章神經元網路174
20.1前饋神經網路174
20.2神經網路學習175
20.3神經網路的表達力176
20.4神經網路樣本複雜度178
20.5學習神經網路的運行時179
20.6SGD和反向傳播179
20.7小結182
20.8文獻評註183
20.9練習183
第三部分其他學習模型
第21章線上學習186
21.1可實現情況下的線上分類186
21.2不可實現情況下的線上識別191
21.3線上凸最佳化195
21.4線上感知器算法197
21.5小結199
21.6文獻評註199
21.7練習199
第22章聚類201
22.1基於連結的聚類算法203
22.2k均值算法和其他代價最小聚類203
22.3譜聚類206
22.3.1圖割206
22.3.2圖拉普拉斯與鬆弛圖割算法206
22.3.3非歸一化的譜聚類207
22.4信息瓶頸*208
22.5聚類的進階觀點208
22.6小結209
22.7文獻評註210
22.8練習210
第23章維度約簡212
23.1主成分分析212
23.1.1當dm時一種更加有效的求解方法214
23.1.2套用與說明214
23.2隨機投影216
23.3壓縮感知217
23.4PCA還是壓縮感知223
23.5小結223
23.6文獻評註223
23.7練習223
第24章生成模型226
24.1極大似然估計226
24.1.1連續隨機變數的極大似然估計227
24.1.2極大似然與經驗風險最小化228
24.1.3泛化分析228
24.2樸素貝葉斯229
24.3線性判別分析230
24.4隱變數與EM算法230
24.4.1EM是交替最大化算法232
24.4.2混合高斯模型參數估計的EM算法233
24.5貝葉斯推理233
24.6小結235
24.7文獻評註235
24.8練習235
第25章特徵選擇與特徵生成237
25.1特徵選擇237
25.1.1濾波器238
25.1.2貪婪選擇方法239
25.1.3稀疏誘導範數241
25.2特徵操作和歸一化242
25.3特徵學習244
25.4小結246
25.5文獻評註246
25.6練習246
第四部分高級理論
第26章拉德馬赫複雜度250
26.1拉德馬赫複雜度概述250
26.2線性類的拉德馬赫複雜度255
26.3SVM的泛化誤差界256
26.4低1範數預測器的泛化誤差界258
26.5文獻評註259
第27章覆蓋數260
27.1覆蓋260
27.2通過鏈式反應從覆蓋到拉德馬赫複雜度261
27.3文獻評註262
第28章學習理論基本定理的證明263
28.1不可知情況的上界263
28.2不可知情況的下界264
28.2.1證明m(ε,δ)≥0.5log(1/(4δ))/ε2264
28.2.2證明m(ε,1/8)≥8d/ε2265
28.3可實現情況的上界267
第29章多分類可學習性271
29.1納塔拉詹維271
29.2多分類基本定理271
29.3計算納塔拉詹維272
29.3.1基於類的一對多272
29.3.2一般的多分類到二分類約簡273
29.3.3線性多分類預測器273
29.4好的與壞的ERM274
29.5文獻評註275
29.6練習276
第30章壓縮界277
30.1壓縮界概述277
30.2例子278
30.2.1平行於軸的矩形278
30.2.2半空間279
30.2.3可分多項式279
30.2.4間隔可分的情況279
30.3文獻評註280
第31章PAC貝葉斯281
31.1PAC貝葉斯界281
31.2文獻評註282
31.3練習282
附錄A技術性引理284
附錄B測度集中度287
附錄C線性代數294
參考文獻297
索引305
作者簡介
沙伊·沙萊夫-施瓦茨(Shai Shalev-Shwartz) 以色列希伯來大學計算機及工程學院副教授,還在Mobileye公司研究自動駕駛。2009年之前他在芝加哥的豐田技術研究所工作。他的研究方向是機器學習算法。
沙伊·本-戴維(Shai Ben-David) 加拿大滑鐵盧大學計算機科學學院教授。先後在以色列理工學院、澳大利亞國立大學和康奈爾大學任教。
第18章決策樹162
18.1採樣複雜度162
18.2決策樹算法163
18.2.1增益測量的實現方式164
18.2.2剪枝165
18.2.3實值特徵基於閾值的拆分規則165
18.3隨機森林165
18.4小結166
18.5文獻評註166
18.6練習166
第19章最近鄰167
19.1k近鄰法167
19.2分析168
19.2.11NN準則的泛化界168
19.2.2“維數災難”170
19.3效率實施*171
19.4小結171
19.5文獻評註171
19.6練習171
第20章神經元網路174
20.1前饋神經網路174
20.2神經網路學習175
20.3神經網路的表達力176
20.4神經網路樣本複雜度178
20.5學習神經網路的運行時179
20.6SGD和反向傳播179
20.7小結182
20.8文獻評註183
20.9練習183
第三部分其他學習模型
第21章線上學習186
21.1可實現情況下的線上分類186
21.2不可實現情況下的線上識別191
21.3線上凸最佳化195
21.4線上感知器算法197
21.5小結199
21.6文獻評註199
21.7練習199
第22章聚類201
22.1基於連結的聚類算法203
22.2k均值算法和其他代價最小聚類203
22.3譜聚類206
22.3.1圖割206
22.3.2圖拉普拉斯與鬆弛圖割算法206
22.3.3非歸一化的譜聚類207
22.4信息瓶頸*208
22.5聚類的進階觀點208
22.6小結209
22.7文獻評註210
22.8練習210
第23章維度約簡212
23.1主成分分析212
23.1.1當dm時一種更加有效的求解方法214
23.1.2套用與說明214
23.2隨機投影216
23.3壓縮感知217
23.4PCA還是壓縮感知223
23.5小結223
23.6文獻評註223
23.7練習223
第24章生成模型226
24.1極大似然估計226
24.1.1連續隨機變數的極大似然估計227
24.1.2極大似然與經驗風險最小化228
24.1.3泛化分析228
24.2樸素貝葉斯229
24.3線性判別分析230
24.4隱變數與EM算法230
24.4.1EM是交替最大化算法232
24.4.2混合高斯模型參數估計的EM算法233
24.5貝葉斯推理233
24.6小結235
24.7文獻評註235
24.8練習235
第25章特徵選擇與特徵生成237
25.1特徵選擇237
25.1.1濾波器238
25.1.2貪婪選擇方法239
25.1.3稀疏誘導範數241
25.2特徵操作和歸一化242
25.3特徵學習244
25.4小結246
25.5文獻評註246
25.6練習246
第四部分高級理論
第26章拉德馬赫複雜度250
26.1拉德馬赫複雜度概述250
26.2線性類的拉德馬赫複雜度255
26.3SVM的泛化誤差界256
26.4低1範數預測器的泛化誤差界258
26.5文獻評註259
第27章覆蓋數260
27.1覆蓋260
27.2通過鏈式反應從覆蓋到拉德馬赫複雜度261
27.3文獻評註262
第28章學習理論基本定理的證明263
28.1不可知情況的上界263
28.2不可知情況的下界264
28.2.1證明m(ε,δ)≥0.5log(1/(4δ))/ε2264
28.2.2證明m(ε,1/8)≥8d/ε2265
28.3可實現情況的上界267
第29章多分類可學習性271
29.1納塔拉詹維271
29.2多分類基本定理271
29.3計算納塔拉詹維272
29.3.1基於類的一對多272
29.3.2一般的多分類到二分類約簡273
29.3.3線性多分類預測器273
29.4好的與壞的ERM274
29.5文獻評註275
29.6練習276
第30章壓縮界277
30.1壓縮界概述277
30.2例子278
30.2.1平行於軸的矩形278
30.2.2半空間279
30.2.3可分多項式279
30.2.4間隔可分的情況279
30.3文獻評註280
第31章PAC貝葉斯281
31.1PAC貝葉斯界281
31.2文獻評註282
31.3練習282
附錄A技術性引理284
附錄B測度集中度287
附錄C線性代數294
參考文獻297
索引305
作者簡介
沙伊·沙萊夫-施瓦茨(Shai Shalev-Shwartz) 以色列希伯來大學計算機及工程學院副教授,還在Mobileye公司研究自動駕駛。2009年之前他在芝加哥的豐田技術研究所工作。他的研究方向是機器學習算法。
沙伊·本-戴維(Shai Ben-David) 加拿大滑鐵盧大學計算機科學學院教授。先後在以色列理工學院、澳大利亞國立大學和康奈爾大學任教。