內容簡介
本書的目標是幫助讀者全面、系統地學習機器學習所必須的數學知識。全書由8章組成,力求精準、最小地覆蓋機器學習的數學知識。包括微積分,線性代數與矩陣論,最最佳化方法,機率論,資訊理論,隨機過程,以及圖論。本書從機器學習的角度講授這些數學知識,對它們在該領域的套用舉例說明,使讀者對某些抽象的數學知識和理論的實際套用有直觀、具體的認識。 本書內容緊湊,結構清晰,深入淺出,講解詳細。可用作計算機、人工智慧、電子工程、自動化、數學等相關專業的教材與教學參考書。對人工智慧領域的工程技術人員與產品研發人員,本書也有很強的參考價值。對於廣大數學與套用的數學愛好者,本書亦為適合自學的讀本。
圖書目錄
第1 章一元函式微積分1
1.1 極限與連續. . . . . . . . . . . . . . 1
1.1.1 可數集與不可數集. . . . . . . . 1
1.1.2 數列的極限. . . . . . . . . . . . 3
1.1.3 函式的極限. . . . . . . . . . . . 7
1.1.4 函式的連續性與間斷點. . . . . 9
1.1.5 上確界與下確界. . . . . . . . . 11
1.1.6 李普希茨連續性. . . . . . . . . 12
1.1.7 無窮小量. . . . . . . . . . . . . 13
1.2 導數與微分. . . . . . . . . . . . . . 14
1.2.1 一階導數. . . . . . . . . . . . . 14
1.2.2 機器學習中的常用函式. . . . . 20
1.2.3 高階導數. . . . . . . . . . . . . 22
1.2.4 微分. . . . . . . . . . . . . . . . 24
1.2.5 導數與函式的單調性. . . . . . 25
1.2.6 極值判別法則. . . . . . . . . . 26
1.2.7 導數與函式的凹凸性. . . . . . 28
1.3 微分中值定理. . . . . . . . . . . . . 29
1.3.1 羅爾中值定理. . . . . . . . . . 29
1.3.2 拉格朗日中值定理. . . . . . . . 29
1.3.3 柯西中值定理. . . . . . . . . . 31
1.4 泰勒公式. . . . . . . . . . . . . . . . 31
1.5 不定積分. . . . . . . . . . . . . . . . 33
1.5.1 不定積分的定義與性質. . . . . 33
1.5.2 換元積分法. . . . . . . . . . . . 35
1.5.3 分部積分法. . . . . . . . . . . . 36
1.6 定積分. . . . . . . . . . . . . . . . . 37
1.6.1 定積分的定義與性質. . . . . . 38
1.6.2 牛頓-萊布尼茨公式. . . . . . . 39
1.6.3 定積分的計算. . . . . . . . . . 40
1.6.4 變上限積分. . . . . . . . . . . . 41
1.6.5 定積分的套用. . . . . . . . . . 42
1.6.6 廣義積分. . . . . . . . . . . . . 44
1.7 常微分方程. . . . . . . . . . . . . . 45
1.7.1 基本概念. . . . . . . . . . . . . 45
1.7.2 一階線性微分方程. . . . . . . . 46
第2 章線性代數與矩陣論49
2.1 向量及其運算. . . . . . . . . . . . . 49
2.1.1 基本概念. . . . . . . . . . . . . 49
2.1.2 基本運算. . . . . . . . . . . . . 51
2.1.3 向量的範數. . . . . . . . . . . . 53
2.1.4 解析幾何. . . . . . . . . . . . . 55
2.1.5 線性相關性. . . . . . . . . . . . 57
2.1.6 向量空間. . . . . . . . . . . . . 58
2.1.7 套用——線性回歸. . . . . . . . 61
2.1.8 套用——線性分類器與支持
向量機. . . . . . . . . . . . . . 62
2.2 矩陣及其運算. . . . . . . . . . . . . 65
2.2.1 基本概念. . . . . . . . . . . . . 65
2.2.2 基本運算. . . . . . . . . . . . . 67
2.2.3 逆矩陣. . . . . . . . . . . . . . 72
2.2.4 矩陣的範數. . . . . . . . . . . . 78
2.2.5 套用——人工神經網路. . . . . 78
2.2.6 線性變換. . . . . . . . . . . . . 81
2.3 行列式. . . . . . . . . . . . . . . . . 82
2.3.1 行列式的定義與性質. . . . . . 83
2.3.2 計算方法. . . . . . . . . . . . . 91
2.4 線性方程組. . . . . . . . . . . . . . 92
2.4.1 高斯消元法. . . . . . . . . . . . 92
2.4.2 齊次方程組. . . . . . . . . . . . 93
2.4.3 非齊次方程組. . . . . . . . . . 95
2.5 特徵值與特徵向量. . . . . . . . . . 97
2.5.1 特徵值與特徵向量. . . . . . . . 97
2.5.2 相似變換. . . . . . . . . . . . . 105
2.5.3 正交變換. . . . . . . . . . . . . 106
2.5.4 QR 算法. . . . . . . . . . . . . . 110
2.5.5 廣義特徵值. . . . . . . . . . . . 112
2.5.6 瑞利商. . . . . . . . . . . . . . 112
2.5.7 譜範數與特徵值的關係. . . . . 114
2.5.8 條件數. . . . . . . . . . . . . . 114
2.5.9 套用——譜歸一化與譜正則化. . . . . . . . . . . . . . . . . 115
2.6 二次型. . . . . . . . . . . . . . . . . 116
2.6.1 基本概念. . . . . . . . . . . . . 116
2.6.2 正定二次型與正定矩陣. . . . . 116
2.6.3 標準型. . . . . . . . . . . . . . 119
2.7 矩陣分解. . . . . . . . . . . . . . . . 121
2.7.1 楚列斯基分解. . . . . . . . . . 121
2.7.2 QR 分解. . . . . . . . . . . . . . 123
2.7.3 特徵值分解. . . . . . . . . . . . 127
2.7.4 奇異值分解. . . . . . . . . . . . 128
第3 章多元函式微積分133
3.1 偏導數. . . . . . . . . . . . . . . . . 133
3.1.1 一階偏導數. . . . . . . . . . . . 133
3.1.2 高階偏導數. . . . . . . . . . . . 134
3.1.3 全微分. . . . . . . . . . . . . . 136
3.1.4 鏈式法則. . . . . . . . . . . . . 136
3.2 梯度與方嚮導數. . . . . . . . . . . . 138
3.2.1 梯度. . . . . . . . . . . . . . . . 138
3.2.2 方嚮導數. . . . . . . . . . . . . 139
3.2.3 套用——邊緣檢測與HOG
特徵. . . . . . . . . . . . . . . . 139
3.3 黑塞矩陣. . . . . . . . . . . . . . . . 140
3.3.1 黑塞矩陣的定義與性質. . . . . 141
3.3.2 凹凸性. . . . . . . . . . . . . . 141
3.3.3 極值判別法則. . . . . . . . . . 143
3.3.4 套用——最小二乘法. . . . . . . 145
3.4 雅可比矩陣. . . . . . . . . . . . . . 146
3.4.1 雅可比矩陣的定義和性質. . . . 146
3.4.2 鏈式法則的矩陣形式. . . . . . 148
3.5 向量與矩陣求導. . . . . . . . . . . . 150
3.5.1 常用求導公式. . . . . . . . . . 150
3.5.2 套用——反向傳播算法. . . . . 154
3.6 微分算法. . . . . . . . . . . . . . . . 156
3.6.1 符號微分. . . . . . . . . . . . . 156
3.6.2 數值微分. . . . . . . . . . . . . 157
3.6.3 自動微分. . . . . . . . . . . . . 158
3.7 泰勒公式. . . . . . . . . . . . . . . . 159
3.8 多重積分. . . . . . . . . . . . . . . . 161
3.8.1 二重積分. . . . . . . . . . . . . 161
3.8.2 三重積分. . . . . . . . . . . . . 164
3.8.3 n 重積分. . . . . . . . . . . . . 167
3.9 無窮級數. . . . . . . . . . . . . . . . 170
3.9.1 常數項級數. . . . . . . . . . . . 170
3.9.2 函式項級數. . . . . . . . . . . . 173
第4 章最最佳化方法176
4.1 基本概念. . . . . . . . . . . . . . . . 176
4.1.1 問題定義. . . . . . . . . . . . . 177
4.1.2 疊代法的基本思想. . . . . . . . 179
4.2 一階最佳化算法. . . . . . . . . . . . . 180
4.2.1 梯度下降法. . . . . . . . . . . . 180
4.2.2 最速下降法. . . . . . . . . . . . 183
4.2.3 梯度下降法的改進. . . . . . . . 184
4.2.4 隨機梯度下降法. . . . . . . . . 186
4.2.5 套用——人工神經網路. . . . . 187
4.3 二階最佳化算法. . . . . . . . . . . . . 188
4.3.1 牛頓法. . . . . . . . . . . . . . 188
4.3.2 擬牛頓法. . . . . . . . . . . . . 189
4.4 分治法. . . . . . . . . . . . . . . . . 193
4.4.1 坐標下降法. . . . . . . . . . . . 193
4.4.2 SMO 算法. . . . . . . . . . . . . 194
4.4.3 分階段最佳化. . . . . . . . . . . . 195
4.4.4 套用——logistic 回歸. . . . . . 196
4.5 凸最佳化問題. . . . . . . . . . . . . . 198
4.5.1 數值最佳化算法面臨的問題. . . . 198
4.5.2 凸集. . . . . . . . . . . . . . . . 199
4.5.3 凸最佳化問題及其性質. . . . . . 200
4.5.4 機器學習中的凸最佳化問題. . . . 201
4.6 帶約束的最佳化問題. . . . . . . . . . 202
4.6.1 拉格朗日乘數法. . . . . . . . . 202
4.6.2 套用——線性判別分析. . . . . 204
4.6.3 拉格朗日對偶. . . . . . . . . . 205
4.6.4 KKT 條件. . . . . . . . . . . . . 208
4.6.5 套用——支持向量機. . . . . . . 209
4.7 多目標最佳化問題. . . . . . . . . . . . 213
4.7.1 基本概念. . . . . . . . . . . . . 213
4.7.2 求解算法. . . . . . . . . . . . . 215
4.7.3 套用——多目標神經結構搜
索. . . . . . . . . . . . . . . . . 215
4.8 泛函極值與變分法. . . . . . . . . . 216
4.8.1 泛函與變分. . . . . . . . . . . . 217
4.8.2 歐拉—拉格朗日方程. . . . . . 218
4.8.3 套用——證明兩點之間直線
最短. . . . . . . . . . . . . . . . 220
4.9 目標函式的構造. . . . . . . . . . . . 221
4.9.1 有監督學習. . . . . . . . . . . . 221
4.9.2 無監督學習. . . . . . . . . . . . 224
4.9.3 強化學習. . . . . . . . . . . . . 225
第5 章機率論228
5.1 隨機事件與機率. . . . . . . . . . . . 229
5.1.1 隨機事件機率. . . . . . . . . . 229
5.1.2 條件機率. . . . . . . . . . . . . 233
5.1.3 全機率公式. . . . . . . . . . . . 234
5.1.4 貝葉斯公式. . . . . . . . . . . . 235
5.1.5 條件獨立. . . . . . . . . . . . . 236
5.2 隨機變數. . . . . . . . . . . . . . . . 236
5.2.1 離散型隨機變數. . . . . . . . . 236
5.2.2 連續型隨機變數. . . . . . . . . 237
5.2.3 數學期望. . . . . . . . . . . . . 240
5.2.4 方差與標準差. . . . . . . . . . 242
5.2.5 Jensen 不等式. . . . . . . . . . . 243
5.3 常用機率分布. . . . . . . . . . . . . 244
5.3.1 均勻分布. . . . . . . . . . . . . 244
5.3.2 伯努利分布. . . . . . . . . . . . 246
5.3.3 二項分布. . . . . . . . . . . . . 247
5.3.4 多項分布. . . . . . . . . . . . . 248
5.3.5 幾何分布. . . . . . . . . . . . . 249
5.3.6 常態分配. . . . . . . . . . . . . 250
5.3.7 t 分布. . . . . . . . . . . . . . . 252
5.3.8 套用——顏色直方圖. . . . . . . 253
5.3.9 套用——貝葉斯分類器. . . . . 254
5.4 分布變換. . . . . . . . . . . . . . . . 254
5.4.1 隨機變數函式. . . . . . . . . . 254
5.4.2 逆變換採樣算法. . . . . . . . . 256
5.5 隨機向量. . . . . . . . . . . . . . . . 258
5.5.1 離散型隨機向量. . . . . . . . . 258
5.5.2 連續型隨機向量. . . . . . . . . 260
5.5.3 數學期望. . . . . . . . . . . . . 261
5.5.4 協方差. . . . . . . . . . . . . . 262
5.5.5 常用機率分布. . . . . . . . . . 265
5.5.6 分布變換. . . . . . . . . . . . . 268
5.5.7 套用——高斯混合模型. . . . . 269
5.6 極限定理. . . . . . . . . . . . . . . . 271
5.6.1 切比雪夫不等式. . . . . . . . . 271
5.6.2 大數定律. . . . . . . . . . . . . 271
5.6.3 中心極限定理. . . . . . . . . . 273
5.7 參數估計. . . . . . . . . . . . . . . . 273
5.7.1 最大似然估計. . . . . . . . . . 274
5.7.2 最大後驗機率估計. . . . . . . . 276
5.7.3 貝葉斯估計. . . . . . . . . . . . 278
5.7.4 核密度估計. . . . . . . . . . . . 278
5.7.5 套用——logistic 回歸. . . . . . 280
5.7.6 套用——EM 算法. . . . . . . . 282
5.7.7 套用——Mean Shift 算法. . . . 286
5.8 隨機算法. . . . . . . . . . . . . . . . 288
5.8.1 基本隨機數生成算法. . . . . . 288
5.8.2 遺傳算法. . . . . . . . . . . . . 290
5.8.3 蒙特卡洛算法. . . . . . . . . . 293
5.9 採樣算法. . . . . . . . . . . . . . . . 295
5.9.1 拒絕採樣. . . . . . . . . . . . . 296
5.9.2 重要性採樣. . . . . . . . . . . . 297
第6 章資訊理論298
6.1 熵與聯合熵. . . . . . . . . . . . . . 298
6.1.1 信息量與熵. . . . . . . . . . . . 298
6.1.2 熵的性質. . . . . . . . . . . . . 300
6.1.3 套用——決策樹. . . . . . . . . 302
6.1.4 聯合熵. . . . . . . . . . . . . . 303
6.2 交叉熵. . . . . . . . . . . . . . . . . 305
6.2.1 交叉熵的定義. . . . . . . . . . 306
6.2.2 交叉熵的性質. . . . . . . . . . 306
6.2.3 套用——softmax 回歸. . . . . . 307
6.3 Kullback-Leibler 散度. . . . . . . . . 309
6.3.1 KL 散度的定義. . . . . . . . . . 309
6.3.2 KL 散度的性質. . . . . . . . . . 311
6.3.3 與交叉熵的關係. . . . . . . . . 312
6.3.4 套用——流形降維. . . . . . . . 312
6.3.5 套用——變分推斷. . . . . . . . 313
6.4 Jensen-Shannon 散度. . . . . . . . . 316
6.4.1 JS 散度的定義. . . . . . . . . . 316
6.4.2 JS 散度的性質. . . . . . . . . . 316
6.4.3 套用——生成對抗網路. . . . . 317
6.5 互信息. . . . . . . . . . . . . . . . . 320
6.5.1 互信息的定義. . . . . . . . . . 320
6.5.2 互信息的性質. . . . . . . . . . 321
6.5.3 與熵的關係. . . . . . . . . . . . 322
6.5.4 套用——特徵選擇. . . . . . . . 323
6.6 條件熵. . . . . . . . . . . . . . . . . 324
6.6.1 條件熵定義. . . . . . . . . . . . 324
6.6.2 條件熵的性質. . . . . . . . . . 325
6.6.3 與熵以及互信息的關係. . . . . 325
6.7 總結. . . . . . . . . . . . . . . . . . 326
第7 章隨機過程328
7.1 馬爾可夫過程. . . . . . . . . . . . . 328
7.1.1 馬爾可夫性. . . . . . . . . . . . 329
7.1.2 馬爾可夫鏈的基本概念. . . . . 330
7.1.3 狀態的性質與分類. . . . . . . . 333
7.1.4 平穩分布與極限分布. . . . . . 337
7.1.5 細緻平衡條件. . . . . . . . . . 342
7.1.6 套用——隱馬爾可夫模型. . . . 343
7.1.7 套用——強化學習. . . . . . . . 345
7.2 馬爾可夫鏈採樣算法. . . . . . . . . 348
7.2.1 基本馬爾可夫鏈採樣. . . . . . 349
7.2.2 MCMC 採樣算法. . . . . . . . . 349
7.2.3 Metropolis-Hastings 算法. . . . . 351
7.2.4 Gibbs 算法. . . . . . . . . . . . 353
7.3 高斯過程. . . . . . . . . . . . . . . . 355
7.3.1 高斯過程性質. . . . . . . . . . 355
7.3.2 高斯過程回歸. . . . . . . . . . 355
7.3.3 套用——貝葉斯最佳化. . . . . . . 358
第8 章圖論363
8.1 圖的基本概念. . . . . . . . . . . . . 363
8.1.1 基本概念. . . . . . . . . . . . . 363
8.1.2 套用——計算圖與自動微分. . . 365
8.1.3 套用——機率圖模型. . . . . . . 370
8.1.4 鄰接矩陣與加權度矩陣. . . . . 371
8.1.5 套用——樣本集的相似度圖. . . 372
8.2 若干特殊的圖. . . . . . . . . . . . . 373
8.2.1 聯通圖. . . . . . . . . . . . . . 373
8.2.2 二部圖. . . . . . . . . . . . . . 374
8.2.3 套用——受限玻爾茲曼機. . . . 374
8.2.4 有向無環圖. . . . . . . . . . . . 376
8.2.5 套用——神經結構搜尋. . . . . 376
8.3 重要的算法. . . . . . . . . . . . . . 380
8.3.1 遍歷算法. . . . . . . . . . . . . 380
8.3.2 最短路徑算法. . . . . . . . . . 381
8.3.3 拓撲排序算法. . . . . . . . . . 382
8.4 譜圖理論. . . . . . . . . . . . . . . . 384
8.4.1 拉普拉斯矩陣. . . . . . . . . . 385
8.4.2 歸一化拉普拉斯矩陣. . . . . . 388
8.4.3 套用——流形降維. . . . . . . . 390