深度強化學習:學術前沿與實戰套用

深度強化學習:學術前沿與實戰套用

《深度強化學習:學術前沿與實戰套用》是2020年機械工業出版社出版的圖書,作者是劉馳,王占健,戴子彭。

基本介紹

  • 中文名:深度強化學習:學術前沿與實戰套用
  • 作者:劉馳,王占健,戴子彭
  • 出版社機械工業出版社
  • ISBN:9787111646648
內容簡介,圖書目錄,

內容簡介

本書共分為四篇,即深度強化學習、多智慧型體深度強化學習、多任務深度強化學習和深度強化學習的套用。由淺入深、通俗易懂,涵蓋經典算法和近幾年的前沿技術進展。特別是書中詳細介紹了每一種代表性悼樂算法的代碼原型實現,旨在理論與實踐相結合,讓讀者學有所得、學有所用。
第一篇(包含第1~3章)主要講解深度強化學習基礎,側重於單智慧型體強化學習算法,相漿鞏講對簡單,有助於初級讀者理解,同時涵蓋了近幾年的經典算法和一些前沿的研究成果。
第二篇(包含第4~5章)主要側重於對多智慧型體深度強化學習的講解,從多智慧型體強化學習基本概念到相關算法的講解和分析,以多個極具代表性的算法為例帶領讀者逐步學習多智慧型體訓練及控制的理論與方法。同時,還介紹了多智慧型體強化學習領域一些前沿學術成果。
第三篇(包含第6~7章)擴展到多任務場景,稱為多任務深度強化學習。首先介紹了多任務強化學習的基本概念和相關基礎知識,隨後講解了部分經典的多任務深度強化學習算法。
第四篇(包含第8~11章)主要講解深度強化學習的實際套用,涉及遊戲、機器人控制、計算機視覺和自然語言處理四大領域。通過領域套用中思想和方法的講解,培養讀者跨領域解決實際問題的能力,以幫助讀者熟練掌握和使用深度強化學習這一強大的方法來解決和最佳化實際工程領域中的問題。

圖書目錄

前言
數學符號
第一篇 深度強化學習
第1章 深度強化學習基礎 2
1.1 強化學習 2
1.1.1 強化學習的發展歷史 2
1.1.2 強化學習駝迎定簡介 4
1.1.3 深度強化學習簡介 6
1.2 馬爾可夫屬性和決策過程 9
1.2.1 馬爾可夫屬性 9
1.2.2 馬爾可夫決策過程 11
1.3 強化學習核心概念 12
1.3.1 值函放旋炒船數 12
1.3.2 動態規劃 14
1.3.3 時間(序)差分 15
1.3.4 策略梯度 16
1.3.5 actor-critic方法 17
1.4 Q-learning 18
1.4.1 Q-learning簡介 18
1.4.2 算法 19
1.4.3 相關變數及影響 20
1.4.4 實現簽料煉方法 21
第2章 深度強化學習算法 22
2.1 基於值的深度強化學習算法 22
2.1.1 深度Q網路 22
2.1.2 深度雙Q網路 27
2.1.3 競爭網路架構 31
2.1.4 平均值DQN 33
2.1.5 多DQN變種結合體:Rainbow 37
2.1.6 基於動作排除的DQN 42
2.2 基於策略的深度強化學習算法 46
2.2.1 循環確定性策略梯度 46
2.2.2 深度鑽故說辯確定性策略梯度 55
2.2.3 信賴域策略最佳化 62
2.2.4 近端策略最佳化 68
2.3 基於模型的深度強化學習算法 73
2.3.1 基於模型加速的連續深度Q-learning 73
2.3.2 範例模型探索 80
2.3.3 基於模型集成的信賴域策略最佳化 88
2.3.4 時間差分模型 95
2.4 基於分層的深度強化學習算法 102
2.4.1 分層深度強化學習 102
2.4.2 基於封建網路的分層強化學習 109
2.4.3 基於隨機神經網路的分層強化學習 116
第3章 分散式深度強化學習 123
3.1 分散式系統 123
3.1.1 分散式系統簡介 123
3.1.2 分散式系統的發展歷史 124
3.1.3 架構演進 125
3.1.4 主流分散式系統框架 128
3.2 分散式深度強化學習算法 129
3.2.1 分散式近端策略最佳化 129
3.2.2 分散式深度確定性策略梯度 138
3.3 分散式深度強化學習框架 145
3.3.1 重要性加權Actor-Learner架構 145
3.3.2 分散式優先經驗復用池 153
第二篇 多智慧型體深度強化學習
第4章 多智慧型體深度強化學習基礎 162
4.1 多智慧型體強化學習 162
4.1.1 多智慧型體強化學習發展歷史 162
4.1.2 多智慧型體強化學想雅境習簡介 164
4.1.3 優勢和挑戰 166
4.2 部分可見馬爾可夫決策過程 166
4.2.1 POMDP模型 166
4.2.2 POMDP相關研究 169
4.2.3 POMDP套用領域 170
第5章 多智慧型體深度強化學習算法 171
5.1 基於值函式的多智慧型體深度強化學習 171
5.1.1 基於DQN的多智慧型體網路 171
5.1.2 增強智慧型體間學習 174
5.1.3 協同多智慧型體學習的價值分解網路 178
5.1.4 多智慧型體深度強化學習的穩定經驗復用池 182
5.1.5 單調值函式分解 187
5.1.6 深度強化學習中的對立智慧型體建模 190
5.1.7 平均場多智慧型體強化學習 193
5.2 基於策略的多智慧型體深度強化學習 197
5.2.1 基於自身策略的其他智慧型體行為預測 197
5.2.2 雙重平均方案 201
5.2.3 多智慧型體深度強化學習的統一博弈論方法 208
5.3 基於AC框架的多智慧型體深度強化學習 212
5.3.1 多智慧型體深度確定性策略梯度 212
5.3.2 多智慧型體集中規劃的價值函式策略梯度 220
5.3.3 多智慧型體系統的策略表示學習 227
5.3.4 部分可觀察環境下的多智慧型體策略最佳化 231
5.3.5 基於聯網智慧型體的完全去中心化MARL 236
第三篇 多任務深度強化學習
第6章 多任務深度強化學習基礎 244
6.1 簡介 244
6.1.1 理論概述 244
6.1.2 面臨的挑戰 247
6.2 策略蒸餾法 248
第7章 多任務深度強化學習算法 253
7.1 無監督強化與輔助學習 253
7.1.1 算法介紹 253
7.1.2 算法分析 255
7.1.3 使用場景與優勢分析 261
7.2 使用漸進式神經網路解決任務的複雜序列 262
7.2.1 算法介紹 262
7.2.2 算法分析 262
7.2.3 使用場景與優勢分析 266
7.3 基於單智慧型體的多任務共享模型 267
7.3.1 算法介紹 267
7.3.2 算法分析 268
7.3.3 使用場景與優勢分析 272
7.4 使用PopArt歸一化多任務更新幅度 273
7.4.1 算法介紹 273
7.4.2 算法分析 274
7.4.3 使用場景與優勢分析 276
第四篇 深度強化學習的套用
第8章 遊戲 278
8.1 Gym Retro遊戲平台 278
8.1.1 平台簡介 278
8.1.2 安裝Gym Retro平台 281
8.1.3 安裝Retro UI 282
8.1.4 Gym Retro主要函式說明 283
8.2 相關套用 285
8.2.1 Pong遊戲 285
8.2.2 CartPole 291
8.2.3 Flappy Bird 298
8.2.4 Gradius 302
第9章 機器人控制 312
9.1 機器人導航 312
9.1.1 無地圖導航 312
9.1.2 社會感知機器人導航 316
9.2 路徑規劃 321
9.3 機器人視覺 324
第10章 計算機視覺 327
10.1 圖像 327
10.1.1 圖像字幕 327
10.1.2 圖像恢復 332
10.2 視頻 337
10.2.1 視頻字幕 337
10.2.2 視頻快進 345
10.2.3 視覺跟蹤 348
第11章 自然語言處理 354
11.1 與知識庫互動的多輪對話智慧型體 354
11.1.1 機率KB查找 355
11.1.2 端到端KB-InfoBot 356
11.1.3 總結 359
11.2 魯棒遠程監督關係提取 359
11.2.1 問題表述 360
11.2.2 使用基於策略的智慧型體重新分配訓練數據集 363
11.2.3 總結 363
11.3 非成對情感–情感翻譯 363
11.3.1 問題表述 363
11.3.2 訓練算法 366
11.3.3 總結 367
縮寫參照表 368
常用詞中英文對照 371
參考文獻 374
2.2.2 深度確定性策略梯度 55
2.2.3 信賴域策略最佳化 62
2.2.4 近端策略最佳化 68
2.3 基於模型的深度強化學習算法 73
2.3.1 基於模型加速的連續深度Q-learning 73
2.3.2 範例模型探索 80
2.3.3 基於模型集成的信賴域策略最佳化 88
2.3.4 時間差分模型 95
2.4 基於分層的深度強化學習算法 102
2.4.1 分層深度強化學習 102
2.4.2 基於封建網路的分層強化學習 109
2.4.3 基於隨機神經網路的分層強化學習 116
第3章 分散式深度強化學習 123
3.1 分散式系統 123
3.1.1 分散式系統簡介 123
3.1.2 分散式系統的發展歷史 124
3.1.3 架構演進 125
3.1.4 主流分散式系統框架 128
3.2 分散式深度強化學習算法 129
3.2.1 分散式近端策略最佳化 129
3.2.2 分散式深度確定性策略梯度 138
3.3 分散式深度強化學習框架 145
3.3.1 重要性加權Actor-Learner架構 145
3.3.2 分散式優先經驗復用池 153
第二篇 多智慧型體深度強化學習
第4章 多智慧型體深度強化學習基礎 162
4.1 多智慧型體強化學習 162
4.1.1 多智慧型體強化學習發展歷史 162
4.1.2 多智慧型體強化學習簡介 164
4.1.3 優勢和挑戰 166
4.2 部分可見馬爾可夫決策過程 166
4.2.1 POMDP模型 166
4.2.2 POMDP相關研究 169
4.2.3 POMDP套用領域 170
第5章 多智慧型體深度強化學習算法 171
5.1 基於值函式的多智慧型體深度強化學習 171
5.1.1 基於DQN的多智慧型體網路 171
5.1.2 增強智慧型體間學習 174
5.1.3 協同多智慧型體學習的價值分解網路 178
5.1.4 多智慧型體深度強化學習的穩定經驗復用池 182
5.1.5 單調值函式分解 187
5.1.6 深度強化學習中的對立智慧型體建模 190
5.1.7 平均場多智慧型體強化學習 193
5.2 基於策略的多智慧型體深度強化學習 197
5.2.1 基於自身策略的其他智慧型體行為預測 197
5.2.2 雙重平均方案 201
5.2.3 多智慧型體深度強化學習的統一博弈論方法 208
5.3 基於AC框架的多智慧型體深度強化學習 212
5.3.1 多智慧型體深度確定性策略梯度 212
5.3.2 多智慧型體集中規劃的價值函式策略梯度 220
5.3.3 多智慧型體系統的策略表示學習 227
5.3.4 部分可觀察環境下的多智慧型體策略最佳化 231
5.3.5 基於聯網智慧型體的完全去中心化MARL 236
第三篇 多任務深度強化學習
第6章 多任務深度強化學習基礎 244
6.1 簡介 244
6.1.1 理論概述 244
6.1.2 面臨的挑戰 247
6.2 策略蒸餾法 248
第7章 多任務深度強化學習算法 253
7.1 無監督強化與輔助學習 253
7.1.1 算法介紹 253
7.1.2 算法分析 255
7.1.3 使用場景與優勢分析 261
7.2 使用漸進式神經網路解決任務的複雜序列 262
7.2.1 算法介紹 262
7.2.2 算法分析 262
7.2.3 使用場景與優勢分析 266
7.3 基於單智慧型體的多任務共享模型 267
7.3.1 算法介紹 267
7.3.2 算法分析 268
7.3.3 使用場景與優勢分析 272
7.4 使用PopArt歸一化多任務更新幅度 273
7.4.1 算法介紹 273
7.4.2 算法分析 274
7.4.3 使用場景與優勢分析 276
第四篇 深度強化學習的套用
第8章 遊戲 278
8.1 Gym Retro遊戲平台 278
8.1.1 平台簡介 278
8.1.2 安裝Gym Retro平台 281
8.1.3 安裝Retro UI 282
8.1.4 Gym Retro主要函式說明 283
8.2 相關套用 285
8.2.1 Pong遊戲 285
8.2.2 CartPole 291
8.2.3 Flappy Bird 298
8.2.4 Gradius 302
第9章 機器人控制 312
9.1 機器人導航 312
9.1.1 無地圖導航 312
9.1.2 社會感知機器人導航 316
9.2 路徑規劃 321
9.3 機器人視覺 324
第10章 計算機視覺 327
10.1 圖像 327
10.1.1 圖像字幕 327
10.1.2 圖像恢復 332
10.2 視頻 337
10.2.1 視頻字幕 337
10.2.2 視頻快進 345
10.2.3 視覺跟蹤 348
第11章 自然語言處理 354
11.1 與知識庫互動的多輪對話智慧型體 354
11.1.1 機率KB查找 355
11.1.2 端到端KB-InfoBot 356
11.1.3 總結 359
11.2 魯棒遠程監督關係提取 359
11.2.1 問題表述 360
11.2.2 使用基於策略的智慧型體重新分配訓練數據集 363
11.2.3 總結 363
11.3 非成對情感–情感翻譯 363
11.3.1 問題表述 363
11.3.2 訓練算法 366
11.3.3 總結 367
縮寫參照表 368
常用詞中英文對照 371
參考文獻 374

相關詞條

熱門詞條

聯絡我們