深度強化學習:基礎、研究與套用

深度強化學習:基礎、研究與套用

《深度強化學習:基礎、研究與套用》是電子工業出版社出版圖書,作者是董豪 ,丁子涵 ,仉尚航等。

一本書輕鬆搞懂深度學習強化學習、模仿學習、並行計算、多智慧型體強化學習等

基本介紹

  • 中文名:深度強化學習:基礎、研究與套用
  • 作者:董豪  、丁子涵  、仉尚航
  • 出版社:電子工業出版社
  • 出版時間:2021年7月
  • 頁數:520 頁
  • 定價:129 元
  • 開本:16 開
  • ISBN:9787121411885
內容簡介,圖書目錄,作者簡介,

內容簡介

深度強化學習結合深度學習與強化學習算法各自的優勢解決複雜的決策任務。得益於 DeepMind AlphaGo 和 OpenAI Five 成功的案例,深度強化學習受到大量的關注,相關技術廣泛套用於不同的領域。本書分為三大部分,覆蓋深度強化學習的全部內容。第一部分介紹深度學習和強化學習的入門知識、一些非常基礎的深度強化學習算法及其實現細節,包括第 1~6 章。第二部分是一些精選的深度強化學習研究題目,這些內容對準備開展深度強化學習研究的讀者非常有用,包括第 7~12 章。第三部分提供了豐富的套用案例,包括 AlphaZero、讓機器人學習跑步等,包括第 13~17 章。本書是為計算機科學專業背景、希望從零開始學習深度強化學習並開展研究課題和實踐項目的學生準備的。本書也適合沒有很強的機器學習背景、但是希望快速學習深度強化學習並將其套用到具體產品中的軟體工程師閱讀。

圖書目錄

基礎部分 1
第 1 章 深度學習入門 2
1.1 簡介 2
1.2 感知器 3
1.3 多層感知器 7
1.4 激活函式 9
1.5 損失函式 11
1.6 最佳化 13
1.6.1 梯度下降和誤差的反向傳播 13
1.6.2 隨機梯度下降和自適應學習率 15
1.6.3 超參數篩選 17
1.7 正則化 18
1.7.1 過擬合 18
1.7.2 權重衰減 18
1.7.3 Dropout 20
1.7.4 批標準化 20
1.7.5 其他緩和過擬合的方法 21
1.8 卷積神經網路 22
1.9 循環神經網路 25
1.10 深度學習的實現樣例 28
1.10.1 張量和梯度 28
1.10.2 定義模型 29
110.3 自定義層 31
1.10.4 多層感知器:MNIST 數據集上的圖像分類 33
1.10.5 卷積神經網路:CIFAR-10 數據集上的圖像分類35
1.10.6 序列到序列模型:聊天機器人 36
第 2 章 強化學習入門 43
2.1 簡介 43
2.2 線上預測和線上學習 46
2.2.1 簡介 46
2.2.2 隨機多臂賭博機 48
2.2.3 對抗多臂賭博機 50
2.2.4 上下文賭博機 51
2.3 馬爾可夫過程 52
2.3.1 簡介 52
2.3.2 馬爾可夫獎勵過程 54
2.3.3 馬爾可夫決策過程 57
2.3.4 貝爾曼方程和最優性 61
2.3.5 其他重要概念 64
2.4 動態規劃 64
2.4.1 策略疊代 65
2.4.2 價值疊代 67
2.4.3 其他 DPs:異步 DP、近似 DP 和實時 DP 68
2.5 蒙特卡羅 70
2.5.1 蒙特卡羅預測 70
2.5.2 蒙特卡羅控制 71
2.5.3 增量蒙特卡羅 72
2.6 時間差分學習 73
2.6.1 時間差分預測 73
2.6.2 Sarsa:線上策略 TD 控制 77
2.6.3 Q-Learning:離線策略 TD 控制 80
2.7 策略最佳化 80
2.7.1 簡介 80
2.7.2 基於價值的最佳化 84
2.7.3 基於策略的最佳化 89
2.7.4 結合基於策略和基於價值的方法 105
第 3 章 強化學習算法分類 110
3.1 基於模型的方法和無模型的方法 111
3.2 基於價值的方法和基於策略的方法 113
3.3 蒙特卡羅方法和時間差分方法 114
3.4 線上策略方法和離線策略方法 115
第 4 章 深度 Q 網路 119
4.1 Sarsa 和 Q-Learning 121
4.2 為什麼使用深度學習: 價值函式逼近 121
4.3 DQN 123
4.4 Double DQN 124
4.5 Dueling DQN 125
4.6 優先經驗回放 127
4.7 其他改進內容:多步學習、噪聲網路和值分布強化學習128
4.8 DQN 代碼實例 131
第 5 章 策略梯度 146
5.1 簡介 146
5.2 REINFORCE:初版策略梯度 147
5.3 Actor-Critic 149
5.4 生成對抗網路和 Actor-Critic 150
5.5 同步優勢 Actor-Critic 152
5.6 異步優勢 Actor-Critic 153
5.7 信賴域策略最佳化 154
5.8 近端策略最佳化 157
5.9 使用 Kronecker 因子化信賴域的 Actor-Critic 159
5.10 策略梯度代碼例子 162
5.10.1 相關的 Gym 環境 162
5.10.2 REINFORCE: Atari Pong 和 CartPole-V0 165
5.10.3 AC: CartPole-V0 173
5.10.4 A3C: BipedalWalker-v2 176
5.10.5 TRPO: Pendulum-V0 181
5.10.6 PPO: Pendulum-V0 192
第 6 章 深度 Q 網路和 Actor-Critic 的結合 200
6.1 簡介 200
6.2 深度確定性策略梯度算法 201
6.3 孿生延遲 DDPG 算法 203
6.4 柔性 Actor-Critic 算法 206
6.4.1 柔性策略疊代 206
6.4.2 SAC 207
6.5 代碼例子 209
6.5.1 相關的 Gym 環境 209
6.5.2 DDPG: Pendulum-V0 209
6.5.3 TD3: Pendulum-V0 215
6.5.4 SAC: Pendulum-v0 225
研究部分 236
第 7 章 深度強化學習的挑戰 237
7.1 樣本效率 237
7.2 學習穩定性 240
7.3 災難性遺忘 242
7.4 探索 243
7.5 元學習和表征學習 245
7.6 多智慧型體強化學習 246
7.7 模擬到現實 247
7.8 大規模強化學習 251
7.9 其他挑戰 252
第 8 章 模仿學習 258
8.1 簡介 258
8.2 行為克隆方法 260
8.2.1 行為克隆方法的挑戰 260
8.2.2 數據集聚合 261
8.2.3 Variational Dropout 262
8.2.4 行為克隆的其他方法 262
8.3 逆向強化學習方法 263
8.3.1 簡介 263
8.3.2 逆向強化學習方法的挑戰 264
8.3.3 生成對抗模仿學習 265
8.3.4 生成對抗網路指導性代價學習 266
8.3.5 對抗性逆向強化學習 268
8.4 從觀察量進行模仿學習 269
8.4.1 基於模型方法 269
8.4.2 無模型方法 272
8.4.3 從觀察量模仿學習的挑戰 277
8.5 機率性方法 277
8.6 模仿學習作為強化學習的初始化 279
8.7 強化學習中利用示範數據的其他方法 280
8.7.1 將示範數據導入經驗回放快取 280
8.7.2 標準化 Actor-Critic 281
8.7.3 用示範數據進行獎勵塑形 282
8.8 總結 282
第 9 章 集成學習與規劃 289
9.1 簡介 289
9.2 基於模型的方法 290
9.3 集成模式架構 292
9.4 基於模擬的搜尋 293
9.4.1 樸素蒙特卡羅搜尋 294
9.4.2 蒙特卡羅樹搜尋 294
9.4.3 時間差分搜尋 295
第 10 章 分層強化學習 298
10.1 簡介 298
10.2 選項框架 299
10.2.1 戰略專注作家 300
10.2.2 選項-批判者結構 303
10.3 封建制強化學習 305
10.3.1 封建制網路 305
10.3.2 離線策略修正 307
10.4 其他工作 309
第 11 章 多智慧型體強化學習 315
11.1 簡介 315
11.2 最佳化和均衡 316
11.2.1 納什均衡 317
11.2.2 關聯性均衡 318
11.2.3 斯塔克爾伯格博弈 320
11.3 競爭與合作 321
11.3.1 合作 321
11.3.2 零和博弈 321
11.3.3 同時決策下的競爭 322
11.3.4 順序決策下的競爭 323
11.4 博弈分析架構 324
第 12 章 並行計算 326
12.1 簡介 326
12.2 同步和異步 327
12.3 並行計算網路 329
12.4 分散式強化學習算法 330
12.4.1 異步優勢 Actor-Critic 330
12.4.2 GPU/CPU 混合式異步優勢 Actor-Critic 332
12.4.3 分散式近端策略最佳化 333
12.4.4 重要性加權的行動者-學習者結構和可擴展高效深度強化學習 336
12.4.5 Ape-X、回溯-行動者和分散式深度循環回放 Q 網路 338
12.4.6 Gorila 340
12.5 分散式計算架構 340
套用部分 343
第 13 章 Learning to Run 344
13.1 NeurIPS 2017 挑戰:Learning to Run 344
13.1.1 環境介紹 344
13.1.2 安裝 346
13.2 訓練智慧型體 347
13.2.1 並行訓練 348
13.2.2 小技巧 351
13.2.3 學習結果 352
第 14 章 魯棒的圖像增強 354
14.1 圖像增強 354
14.2 用於魯棒處理的強化學習 356
第 15 章 AlphaZero 366
15.1 簡介 366
15.2 組合博弈 367
15.3 蒙特卡羅樹搜尋 370
15.4 AlphaZero:棋類遊戲的通用算法 376
第 16 章 模擬環境中機器人學習 388
16.1 機器人模擬 389
16.2 強化學習用於機器人任務 405
16.2.1 並行訓練 407
16.2.2 學習效果 407
16.2.3 域隨機化 408
16.2.4 機器人學習基準 409
16.2.5 其他模擬器 409
第 17 章 Arena:多智慧型體強化學習平台 412
17.1 安裝 413
17.2 用 Arena 開發遊戲 413
17.2.1 簡單的單玩家遊戲 414
17.2.2 簡單的使用獎勵機制的雙玩家遊戲 416
17.2.3 高級設定 420
17.2.4 導出二進制遊戲 424
17.3 MARL 訓練 427
17.3.1 設定 X-Server 427
17.3.2 進行訓練 429
17.3.3 可視化 431
17.3.4 致謝 431
第 18 章 深度強化學習套用實踐技巧 433
18.1 概覽:如何套用深度強化學習 433
18.2 實現階段 434
18.3 訓練和調試階段 440
總結部分 445
附錄 A 算法總結表 446
附錄 B 算法速查表 451
B.1 深度學習 451
B.1.1 隨機梯度下降 451
B.1.2 Adam 最佳化器 452
B.2 強化學習 452
B.2.1 賭博機 452
B.2.2 動態規劃 453
B.2.3 蒙特卡羅 454
B.3 深度強化學習 458
B.4 高等深度強化學習 467
B.4.1 模仿學習 467
B.4.2 基於模型的強化學習 468
B.4.3 分層強化學習 470
B.4.4 多智慧型體強化學習 471
B.4.5 並行計算 472
附錄 C 中英文對照表 476

作者簡介

董 豪 北京大學計算機系前沿計算研究中心助理教授、深圳鵬城實驗室雙聘成員。於 2019 年秋獲得英國帝國理工學院博士學位。研究方向主要涉及計算機視覺和生成模型,目的是降低學習智慧型系統所需要的數據。致力於推廣人工智慧技術,是深度學習開源框架 TensorLayer 的創始人,此框架獲得 ACM MM 2017 年度最佳開源軟體獎。在英國帝國理工學院和英國中央蘭開夏大學獲得一等研究生和一等本科學位。
丁子涵 英國帝國理工學院碩士。獲普林斯頓大學博士生全額獎學金,曾在加拿大 Borealis AI、騰訊 Robotics X 實驗室有過工作經歷。本科就讀於中國科學技術大學,獲物理和計算機雙學位。
研究方向主要涉及強化學習、機器人控制、計算機視覺等。在 ICRA、NeurIPS、AAAI、IJCAI、Physical Review 等頂級期刊與會議發表多篇論文,是 TensorLayer-RLzoo、TensorLet 和 Arena 開源項目的貢獻者。
仉尚航 加州大學伯克利分校,BAIR 實驗室(Berkeley AI Research Lab)博士後研究員。於 2018年獲得卡內基·梅隆大學博士學位。研究方向主要涉及深度學習、計算機視覺及強化學習。在NeurIPS、CVPR、ICCV、TNNLS、AAAI、IJCAI 等人工智慧頂級期刊和會議發表多篇論文。主要從事 Human-inspired sample-efficient learning 理論與算法研究,包括 low-shot learning、domain adaptation、self learning 等。獲得 AAAI 2021 Best Paper Award, 美國 2018 Rising Stars in EECS,及Adobe Collaboration Fund、Qualcomm Innovation Fellowship Finalist Award 等獎勵。
袁 航 英國牛津大學計算機科學博士在讀、李嘉誠獎學金獲得者,主攻人工智慧安全和深度學習在健康醫療中的運用。曾在歐美各大高校和研究機構研習,如帝國理工學院、馬克斯普朗克研究所、瑞士聯邦理工和卡內基·梅隆大學。
張鴻銘 中國科學院自動化研究所算法工程師。於 2018 年獲得北京大學碩士研究生學位。本科就讀於北京師範大學,獲理學學士學位。研究方向涉及統計機器學習、強化學習和啟發式搜尋。
張敬卿 英國帝國理工學院計算機系博士生,師從帝國理工學院數據科學院院長郭毅可院士。主要研究方向為深度學習、機器學習、文本挖掘、數據挖掘及其套用。曾獲得中國國家獎學金。2016年於清華大學計算機科學與技術系獲得學士學位,2017 年於帝國理工學院計算機系獲得一等研究性碩士學位。
黃彥華 就職於小紅書,負責大規模機器學習及強化學習在推薦系統中的套用。2016 年在華東師範大學數學系獲得理學學士學位。曾貢獻過開源項目 PyTorch、TensorFlow 和 Ray。
余天洋 啟元世界算法工程師,負責強化學習在博弈場景中的套用。碩士畢業於南昌大學,是TensorLayer-RLzoo 開源項目的貢獻者。
張華清 谷歌公司算法和機器學習工程師,側重於多智慧型體強化學習和多層次結構博弈論方向研究,於華中科技大學獲得學士學位,後於 2017 年獲得休斯敦大學博士學位。
黃銳桐 Borealis AI (加拿大皇家銀行研究院)團隊主管。於 2017 年獲得阿爾伯塔大學統計機器學習博士學位。本科就讀於中國科學技術大學數學系,後於滑鐵盧大學獲得計算機碩士學位。研究方向主要涉及線上學習、最佳化、對抗學習和強化學習。
廖培元 本科就讀於卡內基·梅隆大學計算機科學學院。研究方向主要涉及表示學習和多模態機器學習。曾貢獻過開源項目 mmdetection 和 PyTorch Cluster,在 Kaggle 數據科學社區曾獲Competitions Grandmaster 稱號,最高排名全球前 25 位。

相關詞條

熱門詞條

聯絡我們