機器學習:算法背後的理論與最佳化

機器學習:算法背後的理論與最佳化

《機器學習:算法背後的理論與最佳化》是2019年清華大學出版社出版的圖書,作者是史春奇、卜晶禕、施智平。

基本介紹

  • 中文名:機器學習:算法背後的理論與最佳化
  • 作者:史春奇、卜晶禕、施智平
  • 出版社清華大學出版社 
  • 出版時間:2019年7月1日
  • 定價:69 元
  • ISBN:9787302517184
內容簡介,目錄,

內容簡介

以機器學習為核心的人工智慧已經雄照台祖成為新一代生產力發展的主要驅動因素。新的技術正在向各行各業滲透,大有變革各個領域的趨勢。傳統產業向智慧產業的升級迫使原行業從業人員逐漸轉型,市場上對相關學習材料的需求也日益高漲。幫助廣大學習者更好地理解和掌握機器學習,是編寫本書的目的。
本書針對機器學習領域中最常見的一類問題——有監督學習,從入門、進階、深化三個層面由淺入深地進行了講解。三個層面包括基礎入門算法、核心理論及理論背後的數學最佳化。入門部分用以邏輯回歸為代表的廣義線性模型為出發點,引入書中所有涉及的知識點;碑連舟進階部分的核心理論涵蓋了經驗風險最小、結構風險最小、正則化及統一的分類邊界理論;深化部分的數汗糊檔學最佳化則主要包括最大熵原理、拉格朗日對偶等理論在數學上的推導,以及對模型求解的主流最最佳化方法的探討等。
本書由淺入深,從個別到普便,從自然算法到最佳化算法,從各個角度深入剖析了機器學習,力求幫助讀者循序記拘狼漸進地掌握機器學習的概念、算法和最佳化理論。

目錄

第1 章線性回歸與邏輯回歸. 1
1.1 線性回歸. 1
1.1.1 函式關係與統計關係.1
1.1.2 統計與機器學習. 2
1.2 最小二乘法與高斯-馬爾可夫定理. 5
1.2.1 最小二乘法. . 5
1.2.2 高斯-馬爾可夫定理. . 6
1.3 從線性回歸到邏輯回歸. 8
1.4 最大似然估計求解邏輯回歸. . 9
1.5 最小二乘與最大似然. . 11
1.5.1 邏輯回歸與伯努利分布. 11
1.5.2 線性回歸與常態分配. 12
1.6 小結. 13
參考文獻. 13
第2 章廣旋棵臘漏義線性模型. 15
2.1 廣義線性模型概述.15
2.1.1 廣義線性模型的定義. 15
2.1.2 連結函式與指數分布簇. 17
2.2 廣義線性囑愉模型求解.20
2.3 最大似然估計Ⅰ:Fisher 信息. 21
2.4 最大似然估計Ⅱ:KL 散度與Bregman 散度. 23
2.4.1 KL 散度. . 23
2.4.2 Bregman 散度. . 25
2.5 小結. 26
X
參考文獻. 26
第3 章經驗風險最小. 28
3.1 經驗風險與泛化誤差概述. .28
3.1.1 經驗風險. 30
3.1.2 泛化誤差. 30
3.1.3 欠擬合和過擬合. . 34
3.1.4 VC 維. . 37
3.2 經驗風險最小的算法. . 40
3.3 分類邊界阿多婚. . 42
3.3.1 分類算法的損失函式. 42
3.3.2 分類算法的邊界. . 45
3.4 小結. 48
參考文獻. 48
第4 章結構風險...
4.1經驗風險最小和過擬合..49
4.2結構風險最小和正則化..51
4.2.1從空間角度理解SRM52
4.2.2從貝葉斯觀點理解SRM54
4.3回歸的正則化.55
4.3.1L2正則化和嶺回歸.56
4.3.2L1正則化和Lasso回歸..57
4.3.3L1、L2組合正則化和ElasticNet回歸..58
4.4分類的正則化.60
4.4.1支持向量機和L2正則化.60
4.4.2XGBoost和樹正則化.62
4.4.3神經網路和DropOut正則化.65
4.4.4正則化的優缺點..66
4.5小結.67
參考文獻.67
第5章貝葉斯統計與熵.68
5.1統計學習的基礎:參數估計..68
5.1.1矩估計..68
XI
5.1.2最大似然估計.69
5.1.3最小二乘法.71
5.2機率分布與三大統計思維..72
5.2.1頻率派和常態分配..72
5.2.2經驗派和常態分配..75
5.2.3貝葉斯派和常態分配.76
5.2.4貝葉斯統計和熵的關係.79
5.3信息熵的理解.79
5.3.1信息熵簡史.79
5.3.2信息熵定義.80
5.3.3期望編碼長度解釋..81
5.3.4不確定性公理化解釋.81
5.3.5基於熵的度量.84
5.4最大熵原理..86
5.4.1最大熵的直觀理解..86
5.4.2最大熵解釋自然指數分布簇..87
5.4.3最大熵解釋最大似然估計.89
5.5小結.90
參考文獻.90
第6章基於熵的Softmax..92
6.1二項分布和多項分布..92
6.2Logistic回歸和Softmax回歸..93
6.2.1廣義線性模型的解釋.93
6.2.2Softmax回歸.94
6.2.3最大熵原理與Softmax回歸的等價性.96
6.3最大熵條件下的Log-Linear101
6.4多分類界面.103
6.4.1感知機和多分類感知機..104
6.4.2多分類感知機和結構感知機.105
6.5機率圖模型裡面的Log-Linear106
6.6深度學習裡面的Softmax層..108
6.7小結..109
XII
參考文獻..109
7.1凸共軛..111
7.1.1凸共軛的定義.111
7.1.2凸共軛定理..113
7.2拉格朗日對偶..114
7.2.1拉格朗日對偶概述.115
7.2.2Salter條件..117
7.2.3KKT條件.118
7.3Fenchel對偶..120
7.4.1近端.123
7.4.2增廣拉格朗日乘子法和對偶上升算法..126
7.5交替方向乘子法..129
7.5.1對偶分解..130
7.5.2交替方向乘子法概述..131
7.6小結..131
參考文獻..132
8.1隨機梯度下降法概述.134
8.1.1機器學習場景.134
8.1.2隨機梯度下降法的定義..135
8.1.3隨機梯度下降法收斂性分析.136
8.1.4收斂性證明..139
8.2隨機梯度下降法進階Ⅰ:方差縮減.140
8.2.1方差縮減的效果.141
8.2.2方差縮減的實現.143
8.3隨機梯度下降法進階Ⅱ:加速與適應.145
8.3.1加速.146
8.3.2適應.148
8.3.3加速£適應.151
8.4隨機梯度下降法的並行實現..156
XIII
8.5小結..160
參考文獻..161
第9章常見的最最佳化方法.163
9.1最速下降算法..163
9.1.1l2範數與梯度下降法..164
9.1.2l1範數與坐標下降算法..165
9.1.3二次範數與牛頓法.166
9.2步長的設定.168
9.2.1Armijo-Goldstein準則.169
9.2.2Wolfe-Powell準則.170
9.2.3回溯線搜尋..171
9.3收斂性分析.171
9.3.1收斂速率..172
9.3.2對目標函式的一些假設..173
9.4一階算法:梯度下降法.177
9.5二階算法:牛頓法及其衍生算法..178
9.5.1牛頓法與梯度下降法的對比.179
9.5.2擬牛頓法..180
9.5.3從二次範數的角度看牛頓法.182
9.6小結..183
參考文獻..185
3.3 分類邊界. . 42
3.3.1 分類算法的損失函式. 42
3.3.2 分類算法的邊界. . 45
3.4 小結. 48
參考文獻. 48
第4 章結構風險...
4.1經驗風險最小和過擬合..49
4.2結構風險最小和正則化..51
4.2.1從空間角度理解SRM52
4.2.2從貝葉斯觀點理解SRM54
4.3回歸的正則化.55
4.3.1L2正則化和嶺回歸.56
4.3.2L1正則化和Lasso回歸..57
4.3.3L1、L2組合正則化和ElasticNet回歸..58
4.4分類的正則化.60
4.4.1支持向量機和L2正則化.60
4.4.2XGBoost和樹正則化.62
4.4.3神經網路和DropOut正則化.65
4.4.4正則化的優缺點..66
4.5小結.67
參考文獻.67
第5章貝葉斯統計與熵.68
5.1統計學習的基礎:參數估計..68
5.1.1矩估計..68
XI
5.1.2最大似然估計.69
5.1.3最小二乘法.71
5.2機率分布與三大統計思維..72
5.2.1頻率派和常態分配..72
5.2.2經驗派和常態分配..75
5.2.3貝葉斯派和常態分配.76
5.2.4貝葉斯統計和熵的關係.79
5.3信息熵的理解.79
5.3.1信息熵簡史.79
5.3.2信息熵定義.80
5.3.3期望編碼長度解釋..81
5.3.4不確定性公理化解釋.81
5.3.5基於熵的度量.84
5.4最大熵原理..86
5.4.1最大熵的直觀理解..86
5.4.2最大熵解釋自然指數分布簇..87
5.4.3最大熵解釋最大似然估計.89
5.5小結.90
參考文獻.90
第6章基於熵的Softmax..92
6.1二項分布和多項分布..92
6.2Logistic回歸和Softmax回歸..93
6.2.1廣義線性模型的解釋.93
6.2.2Softmax回歸.94
6.2.3最大熵原理與Softmax回歸的等價性.96
6.3最大熵條件下的Log-Linear101
6.4多分類界面.103
6.4.1感知機和多分類感知機..104
6.4.2多分類感知機和結構感知機.105
6.5機率圖模型裡面的Log-Linear106
6.6深度學習裡面的Softmax層..108
6.7小結..109
XII
參考文獻..109
7.1凸共軛..111
7.1.1凸共軛的定義.111
7.1.2凸共軛定理..113
7.2拉格朗日對偶..114
7.2.1拉格朗日對偶概述.115
7.2.2Salter條件..117
7.2.3KKT條件.118
7.3Fenchel對偶..120
7.4.1近端.123
7.4.2增廣拉格朗日乘子法和對偶上升算法..126
7.5交替方向乘子法..129
7.5.1對偶分解..130
7.5.2交替方向乘子法概述..131
7.6小結..131
參考文獻..132
8.1隨機梯度下降法概述.134
8.1.1機器學習場景.134
8.1.2隨機梯度下降法的定義..135
8.1.3隨機梯度下降法收斂性分析.136
8.1.4收斂性證明..139
8.2隨機梯度下降法進階Ⅰ:方差縮減.140
8.2.1方差縮減的效果.141
8.2.2方差縮減的實現.143
8.3隨機梯度下降法進階Ⅱ:加速與適應.145
8.3.1加速.146
8.3.2適應.148
8.3.3加速£適應.151
8.4隨機梯度下降法的並行實現..156
XIII
8.5小結..160
參考文獻..161
第9章常見的最最佳化方法.163
9.1最速下降算法..163
9.1.1l2範數與梯度下降法..164
9.1.2l1範數與坐標下降算法..165
9.1.3二次範數與牛頓法.166
9.2步長的設定.168
9.2.1Armijo-Goldstein準則.169
9.2.2Wolfe-Powell準則.170
9.2.3回溯線搜尋..171
9.3收斂性分析.171
9.3.1收斂速率..172
9.3.2對目標函式的一些假設..173
9.4一階算法:梯度下降法.177
9.5二階算法:牛頓法及其衍生算法..178
9.5.1牛頓法與梯度下降法的對比.179
9.5.2擬牛頓法..180
9.5.3從二次範數的角度看牛頓法.182
9.6小結..183
參考文獻..185

相關詞條

熱門詞條

聯絡我們