內容簡介
《深度學習》對所有主要的深度學習方法和最新研究趨勢進行了深入探索。全書分為上下兩卷,五個部分。上卷包括兩個部分:第一部分是基礎算法,包括機器學習基礎算法、早期神經網路算法、深度學習的正則化方法和深度學習的最佳化方法;第二部分是判別式模型,包括卷積神經網路(CNN)、循環神經網路(RNN)、長短期記憶模型(LSTM)、注意力機制和記憶網路。下卷包括三個部分:第三部分是生成式模型,包括深度置信網路/深度玻爾茲曼機、自編碼器(AE)/變分自編碼器(VAE)、生成對抗網路(GAN)、像素級生成、深度聚類等;第四部分是前沿技術,討論深度強化學習;第五部分是安全保障,包括深度學習的可解釋性和對抗樣本的攻擊與防禦。《深度學習》注重學術前沿,對包括膠囊網路在內的當前最新成果進行了細緻的討論。全書構建了一套明晰的深度學習體系,同時各章內容相對獨立,並有輔助網站線上提供大量論文、代碼、數據集和彩圖等學習資源供讀者邊實踐邊學習。
圖書目錄
前言
1深度學習概述
2機器學習基礎
3早期神經網路
4深度學習的最佳化
5正則化
6卷積神經網路
7循環神經網路
8注意力機制和記憶網路
上冊目錄
前言
1 深度學習概述 1
1.1 人工智慧與深度學習·· 1
1.2 深度學習的發展·· 2
1.2.1 深度學習的提出·· 2
1.2.2 深度學習的發展歷程·· 4
1.2.3 深度學習的知識體系·· 23
1.2.4 深度學習的數學基礎·· 25
1.2.5 深度學習的典型套用·· 27
1.2.6 深度學習當前面臨的挑戰·· 33
1.2.7 深度學習的未來·· 35
1.3 閱讀材料·· 36
參考文獻·· 37
2 機器學習基礎·· 44
2.1 機器學習基本概念·· 44
2.1.1 定義·· 44
2.1.2 數據·· 45
2.1.3 機器學習的三要素·· 45
2.1.4 歸納偏好·· 47
2.2 機器學習發展歷程·· 48
2.2.1 符號學派·· 48
2.2.2 聯結學派·· 50
2.2.3 進化學派·· 51
2.2.4 貝葉斯學派·· 52
2.2.5 類推學派·· 53
2.3 生成模型和判別模型·· 54
2.4 監督學習·· 55
2.4.1 任務描述·· 55
2.4.2 評價標準·· 59
2.4.3 常用方法·· 60
2.5 無監督學習·· 73
2.5.1 任務描述·· 73
2.5.2 評價標準·· 74
2.5.3 常用方法·· 75
2.6 強化學習·· 88
2.6.1 任務描述·· 88
2.6.2 評價標準·· 90
2.6.3 常用方法·· 91
2.7 閱讀材料·· 96
參考文獻·· 97
3 早期神經網路·· 100
3.1 早期研究成果·· 100
3.1.1 神經網路雛形·· 100
3.1.2 MCP神經元模型·· 101
3.1.3 Hebbian學習規則·· 103
3.2 感知機·· 104
3.3 多層感知機·· 108
3.3.1 多層感知機的結構·· 108
3.3.2 多層感知機的通用近似性·· 109
3.3.3 前向傳播過程·· 111
3.3.4 反向傳播過程·· 112
3.3.5 訓練過程實例·· 116
3.4.1 自組織映射·· 121
3.4.2 Hopfield網路·· 123
3.5 神經網路的激活函式·· 125
3.6 深度的必要性·· 129
3.7 閱讀材料·· 133
參考文獻·· 134
4 深度學習的最佳化·· 136
4.1 深度學習最佳化的困難和挑戰·· 136
4.1.1 局部極小值問題·· 137
4.1.2 鞍點問題·· 137
4.1.3 海森矩陣病態問題·· 138
4.1.4 梯度爆炸·· 139
4.1.5 梯度消失·· 140
4.2 梯度下降基本方法·· 141
4.2.1 批梯度下降·· 142
4.2.2 隨機梯度下降·· 143
4.2.3 小批量梯度下降·· 144
4.3 動量·· 145
4.3.1 動量法·· 145
4.3.2 Nesterov動量法·· 147
4.4 自適應學習率算法·· 148
4.4.1 Adagrad算法·· 149
4.4.2 RMSprop算法·· 151
4.4.3 AdaDelta算法·· 153
4.4.4 Adam算法·· 155
4.4.5 Adamax算法·· 161
4.4.6 Nadam算法·· 162
4.4.7 AMSgrad算法·· 163
4.5 二階近似法·· 165
4.5.1 牛頓法·· 165
4.5.2 DFP算法·· 166
4.5.3 BFGS算法·· 167
4.5.5 共軛梯度算法·· 169
4.6 超參數調節方法·· 171
4.6.1 權值初始化·· 171
4.6.2 自動調節方法·· 171
4.6.3 手動調節方法·· 173
4.7 策略方法·· 174
4.7.1 批歸一化·· 175
4.7.2 預訓練·· 175
4.7.3 神經網路的壓縮和加速·· 176
4.8 閱讀材料·· 179
參考文獻·· 180
5 正則化·· 184
5.1 理論框架·· 184
5.1.1 基本概念·· 184
5.1.2 過擬合與欠擬合·· 185
5.1.3 神經網路領域的正則化框架·· 186
5.2 參數範數懲罰·· 187
5.2.1 正則化·· 187
5.2.2 正則化·· 188
5.3 基於數據的正則化·· 189
5.3.1 數據集擴增·· 189
5.3.2 Dropout 190
5.4 基於最佳化過程的正則化·· 195
5.5 基於函式模型的正則化·· 197
5.6 基於誤差函式的正則化·· 198
5.7 閱讀材料·· 199
參考文獻·· 199
6.1 卷積神經網路的神經科學基礎·· 201
6.2 卷積神經網路的基本結構·· 202
6.3 卷積神經網路的操作·· 205
6.3.1 卷積層操作·· 205
6.3.2 池化層操作·· 208
6.3.3 激活函式·· 211
6.4 設計卷積神經網路的動機·· 215
6.4.1 局部連線·· 215
6.4.2 參數共享·· 218
6.4.3 理解卷積層·· 219
6.4.4 理解整流線性單元·· 223
6.4.5 理解池化層·· 225
6.4.6 卷積與池化作為強先驗分布·· 229
6.5 卷積神經網路訓練·· 230
6.5.1 卷積神經網路訓練過程·· 230
6.5.2 輸入圖像預處理·· 237
6.5.3 卷積神經網路訓練技巧·· 240
6.6 CNN用於圖像分類·· 244
6.6.1 AlexNet 244
6.6.2 ZFNet 246
6.6.3 VGGNet 249
6.6.4 Inception 250
6.7 殘差神經網路·· 258
6.7.1 ResNet 258
6.7.2 ResNet V2· 262
6.7.3 ResNeXt 267
6.7.4 DenseNet 268
6.7.5 MobileNet 270
6.7.6 ShuffleNet 271
6.7.7 Wide Residual Networks 272
6.7.8 Dual Path Network· 274
6.8 CNN用於目標檢測·· 275
6.8.1 R-CNN· 276
6.8.2 Fast R-CNN· 278
6.8.3 Faster R-CNN· 280
6.8.4 Mask R-CNN· 282
6.9 CNN用於像素級語義分割·· 285
6.10 CNN用於超高解析度成像·· 288
6.11 球形卷積神經網路·· 292
6.11.1 球形卷積神經網路設計動機·· 292
6.11.2 球形空間與旋轉組之間的關係·· 293
6.11.3 套用G-FFT代替卷積操作·· 294
6.11.4 球形卷積神經網路實驗·· 295
6.12 CNN用於文本處理·· 296
6.12.1 KimCNN· 296
6.12.2 DCNN· 298
6.13 膠囊網路·· 301
6.13.1 動態路由膠囊網路·· 301
6.13.2 EM路由矩陣膠囊網路·· 308
6.14 閱讀材料·· 314
參考文獻·· 315
7 循環神經網路·· 323
7.1 簡單循環神經網路·· 324
7.1.1 簡單循環神經網路的結構·· 324
7.1.2 循環神經網路的算法·· 328
7.2 循環神經網路的訓練·· 330
7.2.1 損失函式和dropout 330
7.2.2 循環神經網路的訓練技巧·· 331
7.3 長短期記憶神經網路·· 332
7.3.1 長短期記憶神經網路的起源·· 332
7.3.2 長短期記憶神經網路的結構·· 334
7.3.3 長短期記憶神經網路的算法·· 335
7.4 長短期記憶神經網路的訓練·· 340
7.4.1 學習率·· 340
7.4.2 長短期記憶神經網路的訓練技巧·· 340
7.5 RNN和LSTM的變體·· 343
7.5.1 RNN的簡單變體·· 343
7.5.2 增強RNN· 350
7.5.3 LSTM的變體·· 357
7.6 遞歸神經網路·· 367
7.6.2 遞歸神經網路的前向計算·· 368
7.6.3 遞歸神經網路的反向傳播·· 369
7.7 循環神經網路的套用·· 370
7.7.1 詞向量·· 370
7.7.2 評價指標·· 372
7.7.3 機器翻譯·· 373
7.7.4 情感分析·· 377
7.7.5 對話模型·· 380
7.7.6 詩歌生成·· 383
7.7.7 圖片描述·· 384
7.7.8 語音識別·· 387
7.7.9 手寫識別·· 390
7.8 閱讀材料·· 392
參考文獻·· 393
8 注意力機制和記憶網路·· 397
8.1 注意力機制的概念·· 397
8.2 注意力機制的分類·· 399
8.2.1 基於項的注意力和基於位置的注意力·· 400
8.2.2 全局注意力和局部注意力·· 402
8.2.3 自身注意力機制·· 404
8.3 注意力機制和RNN的結合·· 405
8.4 注意力機制的套用·· 406
8.4.1 目標檢測·· 406
8.4.2 圖片標註·· 407
8.4.3 機器翻譯·· 409
8.4.4 問答系統·· 413
8.5 注意力變體·· 418
8.5.1 結構化注意力機制·· 418
8.5.2 目標端注意力·· 420
8.5.3 單調對齊注意力·· 422
8.5.4 循環注意力·· 424
8.5.5 注意力之上的注意力·· 425
8.6 記憶網路·· 427
8.6.1 記憶網路基礎模型·· 427
8.6.2 分層記憶網路·· 429
8.6.3 端到端記憶網路·· 431
8.6.4 動態記憶網路·· 433
8.6.5 神經圖靈機·· 434
8.6.6 記憶網路的套用·· 438
8.7 閱讀材料·· 440
參考文獻·· 441
下冊目錄:
9 深度置信網路和深度玻爾茲曼機·· 1
9.1 深度置信網路和深度玻爾茲曼機的起源·· 1
9.1.1 玻爾茲曼機·· 1
9.1.2 受限玻爾茲曼機·· 2
9.2 模型參數學習·· 7
9.2.1 吉布斯採樣·· 7
9.2.2 對比散列算法·· 7
9.3 深度置信網路·· 9
9.3.1 深度置信網路模型·· 9
9.3.2 深度置信網路訓練·· 10
9.4 深度玻爾茲曼機·· 11
9.4.1 深度玻爾茲曼機模型·· 11
9.4.2 深度玻爾茲曼機參數學習·· 13
9.5 深度置信網路和深度玻爾茲曼機的套用·· 15
9.5.1 深度置信網路的套用·· 15
9.5.2 深度玻爾茲曼機的套用·· 17
9.6 閱讀材料·· 28
參考文獻·· 29
10 自編碼器·· 31
10.1 自編碼器介紹·· 31
10.1.1 自編碼器的結構·· 31
10.1.2 自編碼器的訓練·· 33
10.2 深度自編碼器·· 34
10.3 自編碼器的變形·· 36
10.3.1 稀疏自編碼器·· 36
10.3.2 降噪自編碼器·· 37
10.3.3 收縮自編碼器·· 38
10.3.4 掩碼自編碼器·· 39
10.3.5 其他自編碼器·· 42
10.4 變分自編碼器·· 42
10.4.1 變分推斷·· 42
10.4.2 詳解變分自編碼器·· 45
10.5 變分自編碼器的變形·· 50
10.5.1 半監督變分自編碼器·· 50
10.5.2 反向自回歸流變分自編碼器·· 54
10.5.3 信息最大化變分自編碼器·· 56
10.5.4 最大均值差異變分自編碼器·· 58
10.5.5 向量量化變分自編碼器·· 59
10.5.6 降噪變分自編碼器·· 62
10.5.7 梯形變分自編碼器·· 64
10.6 變分自編碼器的套用·· 68
10.6.1 機器翻譯·· 68
10.6.2 文本分類·· 72
10.7 閱讀材料·· 76
參考文獻·· 76
11 生成對抗網路·· 79
11.1 原始生成對抗網路·· 79
11.1.1 生成對抗網路的基本結構·· 79
11.1.2 深入理解生成對抗網路·· 82
11.1.3 原始生成對抗網路中的問題·· 95
11.2 生成對抗網路的發展·· 96
11.2.1 深度卷積生成對抗網路·· 96
11.2.2 基於Wasserstein距離的生成對抗網路·· 97
11.2.3 加罰項的基於Wasserstein距離的生成對抗網路·· 102
11.2.4 帶有一致化項的生成對抗網路·· 104
11.2.5 損失敏感的生成對抗網路·· 106
11.2.6 信息最大化生成對抗網路·· 110
11.3 生成對抗網路的訓練·· 112
11.3.1 訓練生成對抗網路的問題與發展·· 113
11.3.2 訓練生成對抗網路的一些技巧·· 115
11.3.3 漸進增大方式訓練生成對抗網路·· 116
11.3.4 生成對抗網路的譜歸一化·· 118
11.3.5 通過原始-對偶次梯度方法訓練生成對抗網路·· 121
11.3.6 用最佳化鏡像下降的方法訓練生成對抗網路·· 123
11.3.7 一階懲罰生成對抗網路·· 125
11.4 深度生成模型的聯合模型·· 126
11.4.1 對抗變分貝葉斯方法·· 127
11.4.2 建立深度生成模型之間的原則性聯繫·· 133
11.4.3 對抗自編碼器·· 140
11.4.4 Wasserstein自編碼器·· 144
11.5 最優傳輸理論與生成對抗網路·· 147
11.5.1 從最優傳輸理論到生成模型·· 147
11.5.2 利用最優傳輸理論改善生成對抗網路·· 150
11.6 生成對抗網路的評估·· 152
11.6.1 幾何評分:一種比較樣本的方法·· 153
11.6.2 調節生成器對生成對抗網路性能的影響·· 156
11.7 生成對抗網路的其他模型·· 157
11.8 生成對抗網路的套用·· 160
11.8.1 圖像的生成與操作·· 160
11.8.2 文本·· 172
11.9 早期的對抗模型·· 175
11.10 生成對抗網路的總結·· 177
11.11 閱讀材料·· 179
參考文獻·· 180
12 像素級生成模型·· 184
12.1 PixelCNN· 184
12.1.1 PixelCNN介紹·· 184
12.1.2 mask卷積·· 185
12.1.3 盲點問題·· 186
12.2 PixelRNN· 188
12.2.1 行 LSTM PixelRNN· 188
12.2.2 對角線BiLSTM PixelRNN· 189
12.3 門PixelCNN· 192
12.4 條件 PixelCNN· 193
12.5 PixelVAE· 194
12.6 PixelGAN· 195
12.7 閱讀材料·· 197
參考文獻·· 197
13 深度聚類·· 198
13.1 聚類概述·· 198
13.1.1 傳統聚類與深度聚類之間的關係·· 198
13.1.2 深度聚類模型結構·· 199
13.1.3 深度聚類損失函式·· 199
13.1.4 簇的更新策略·· 201
13.2 深度嵌入聚類算法·· 202
13.2.1 自編碼器與聚類結合·· 202
13.2.2 變分自編碼器與聚類的結合·· 207
13.2.3 梯子網路與聚類的結合·· 210
13.3 深度譜聚類·· 217
13.4 深度子空間聚類·· 220
13.5 閱讀材料·· 224
參考文獻·· 225
14 深度強化學習·· 230
14.1 基於值函式的深度強化學習·· 230
14.1.1 深度Q網路·· 231
14.1.2 雙重深度Q網路·· 238
14.1.3 優先化經驗回放的深度Q網路·· 241
14.1.4 基於競爭網路架構的深度Q網路·· 243
14.2 基於策略搜尋的深度強化學習·· 246
14.2.1 深度確定性策略梯度算法·· 246
14.2.2 異步的優勢行動者-評論家算法·· 250
14.3 基於模型的深度強化學習·· 252
14.3.1 AlphaGo發展史·· 253
14.3.2 AlphaGo原理介紹·· 255
14.4 深度強化學習的套用·· 264
14.5 深度強化學習的未來·· 266
14.6 閱讀材料·· 269
參考文獻·· 269
15 深度學習的可解釋性·· 272
15.1 可解釋性概述·· 272
15.1.1 什麼是可解釋性·· 273
15.1.2 可解釋的必要性·· 273
15.1.3 可解釋性研究進展·· 274
15.2 可視化·· 277
15.2.1 可視化方法分類·· 277
15.2.2 特徵可視化·· 278
15.2.3 關係可視化·· 289
15.2.4 過程可視化·· 297
15.3 深度學習內部工作機制探查·· 300
15.3.1 局部可解釋模型·· 300
15.3.2 關係反向傳播·· 304
15.3.3 決策樹量化解釋·· 311
15.3.4 資訊理論的角度解釋模型·· 317
15.4 深度學習工作機制理論分析·· 321
15.4.1 基於統計的分析·· 321
15.4.2 基於資訊理論的分析·· 327
15.4.3 基於認知科學的分析·· 342
15.5 閱讀材料·· 347
參考文獻·· 348
16 對抗樣本攻防和深度學習的魯棒性·· 355
16.1 深度神經網路的脆弱性·· 355
16.2 對抗樣本攻擊·· 357
16.2.1 攻擊策略·· 357
16.2.2 對抗樣本的產生·· 373
16.2.3 對抗樣本的遷移·· 380
16.3 對抗攻擊的檢測與防禦·· 383
16.3.1 對抗樣本的檢測·· 383
16.3.2 對抗攻擊的防禦·· 385
16.4 深度神經網路的魯棒性·· 391
16.4.1 分類器的魯棒性·· 391
16.4.2 Parseval網路·· 399
16.4.3 評估神經網路的魯棒性·· 400
16.4.4 為深度神經網路提供可保證的魯棒性·· 403
16.5 深度學習測試·· 405
16.5.1 白盒測試·· 405
16.5.2 黑盒測試·· 414
16.6 深度學習驗證·· 422
16.6.1 可滿足性模理論·· 423
16.6.2 線性實數算法和單純形·· 424
16.6.3 從Simplex到Reluplex 425
16.6.4 有效實施Reluplex· 428
16.6.5 案例研究:ACAS Xu系統·· 429
16.7 閱讀材料·· 431
參考文獻·· 432