深度強化學習原理與實踐

深度強化學習原理與實踐

《深度強化學習原理與實踐》是2019年7月人民郵電出版社出版的圖書,作者是陳仲銘、何明。

基本介紹

  • 中文名:深度強化學習原理與實踐
  • 作者:陳仲銘、何明
  • 出版社:人民郵電出版社
  • 出版時間:2019年7月
  • 頁數:341 頁
  • 定價:99 元
  • 開本:16 開
  • 裝幀:平裝
  • ISBN:9787115505323
內容簡介,圖書目錄,

內容簡介

本書構建了一個完整的深度強化學習理論和實踐體系:從馬爾可夫決策過程開始,根據價值函式、策略函式求解貝爾曼方程,到利用深度學習模擬價值網路和策略網路。書中詳細介紹了深度強化學習相關算法,如Rainbow、Ape-X算法等,並闡述了相關算法的具體實現方式和代表性套用(如AlphaGo)。此外,本書還深度剖析了強化學習各算法之間的聯繫,有助於讀者舉一反三。
本書分為四篇:初探強化學習、求解強化學習、求解強化學習進階和深度強化學習。涉及基礎理論到深度強化學習算法框架的各方面內容,反映了深度強化學習領域過去的發展歷程和研究進展,有助於讀者發現該領域中新的研究問題和方向。

圖書目錄

第 一篇 初探強化學習
第 1章 強化學習緒論 3
1.1 初探強化學習 4
1.1.1 強化學習與機器學習 5
1.1.2 強化學習與監督學習的區別 6
1.1.3 歷史發展 8
1.2 基礎理論 10
1.2.1 組成元素 11
1.2.2 環境模型 12
1.2.3 探索與利用 12
1.2.4 預測與控制 13
1.2.5 強化學習的特點 14
1.3 套用案例 14
1.4 強化學習的思考 18
1.4.1 強化學習待解決問題 18
1.4.2 強化學習的突破點 23
1.5 小結 25
第 2章 數學基礎及環境 26
2.1 簡介 27
2.2 馬爾可夫決策過程 27
2.2.1 馬爾可夫性質 27
2.2.2 馬爾可夫決策過程 27
2.3 強化學習的數學基礎理充仔論 29
2.3.1 策略 30
2.3.2 獎勵 30
2.3.3 價值函式 31
2.4 求解強化學習 31
2.4.1 貝爾曼方程 31
2.4.2 最優值函式 32
2.4.3 最優策略 32
2.4.4 求解最優策略 33
2.5 示例:HelloGrid迷宮環境 36
2.5.1 初識OpenAI Gym庫 37
2.5.2 建立HelloGrid環境 38
2.6 小結 43
第二篇 求解強化學習
第3章 動態規劃法 47
3.1 動態規劃 48
3.1.1 動態規劃概述 48
3.1.2 動態規劃與貝爾曼方程 48
3.2 策略評估 49
3.2.1 策略評估算法 49
3.2.2 策略評估算法實現槓付茅 50
3.3 策略改進 54
3.4 策略疊代 56
3.4.1 策略疊代算法 57
3.4.2 策略疊代算法實現 58
3.5 值疊代 60
3.5.1 值疊代算法 61
3.5.2 值疊代算法仔籃凝實現 62
3.6 異步動態規劃 64
3.6.1 In-Place動態規劃 65
3.6.2 加權掃描動態規劃 65
3.6.3 實時動態規劃 66
3.7 討論 66
3.8 小結 67
第4章 蒙特卡洛法 68
4.1 認識蒙特卡洛法 69
4.1.1 經驗軌跡 69
4.1.2 蒙特卡洛法嬸定頌數學原理 74
4.1.3 蒙特卡洛法的特點 74
4.2 蒙特卡洛預測 74
4.2.1 蒙特卡洛預測算法 75
4.2.2 蒙特卡洛預測算法的實現 76
4.3 蒙特卡洛評估 80
4.4 蒙特卡洛控制 81
4.4.1 蒙特卡洛控制概述 82
4.4.2 起始點探索 84
4.4.3 非起始點探索 85
4.4.4 非固定策略 90
4.5 小結 96
第5章 時間差分法 98
5.1 時間差分概述 99
5.2 時間差分預測 99
5.2.1 時間差分預測原理 99
5.2.2 TD(λ)算法 101
5.2.3 時間差分預測特點 104
5.2.4 CartPole遊戲 104
5.3 時槳察烏屑間差分控制Sarsa算法 106
5.3.1 Sarsa算法原理 106
5.3.2 Sarsa算法實現 108
5.4 時間差分控制Q-learning算法 114
5.4.1 Q-learning算法原理 114
5.4.2 Q-learning算法實現 115
5.5 擴展時間差分控制法 121
5.5.1 期望Sarsa算法 121
5.5.2 Double Q-learning算法 121
5.6 比較強化學習求解法 123
5.7 小結 126
第三篇 求解強化學習進階
第6章 值函式近似法 129
6.1 大規模強化學習 130
6.2 值函式近似法概述 131
6.2.1 函式近似 131
6.2.2 值函式近似的芝估笑概念 133
6.2.3 值函式近似的類型 133
6.2.4 值函式近似的求解思路 134
6.3 值函式近似法原理付槓拘辨 135
6.3.1 梯度下降算法 135
6.3.2 梯度下降與值函式近似 137
6.3.3 線性值函式近似法 138
6.4 值函式近似預測法 139
6.4.1 蒙特卡洛值函式近似預測法 139
6.4.2 時間差分TD(0)值函式近似預測法 140
6.4.3 TD(λ)值函式近似預測法 141
6.5 值函式近似控制法 142
6.5.1 值函式近似控制原理 143
6.5.2 爬山車遊戲 143
6.5.3 Q-learning值函式近似 145
6.6 小結 156
第7章 策略梯度法 157
7.1 認識策略梯度法 158
7.1.1 策略梯度概述 158
7.1.2 策略梯度法與值函式近似法的區別 159
7.1.3 策略梯度法的優缺點 160
7.2 策略目標函式 161
7.2.1 起始價值 162
7.2.2 平均價值 162
7.2.3 時間步平均獎勵 162
7.3 最佳化策略目標函式 163
7.3.1 策略梯度 163
7.3.2 評價函式 163
7.3.3 策略梯度定理 165
7.4 有限差分策略梯度法 165
7.5 蒙特卡洛策略梯度法 165
7.5.1 算法原理 166
7.5.2 算法實現 166
7.6 演員-評論家策略梯度法 177
7.6.1 算法原理 177
7.6.2 算法實現 179
7.7 小結 185
第8章 整合學習與規劃 187
8.1 基於模型的強化學習概述 188
8.1.1 基於模型的強化學習 188
8.1.2 基於模型的優點 188
8.1.3 基於模型的缺點 189
8.2 學習與規劃 189
8.2.1 學習過程 189
8.2.2 規划過程 191
8.3 架構整合 192
8.3.1 Dyna算法 193
8.3.2 優先遍歷算法 194
8.3.3 期望更新和樣本更新 196
8.4 基於模擬的搜尋 196
8.4.1 蒙特卡洛搜尋 197
8.4.2 蒙特卡洛樹搜尋 197
8.4.3 時間差分搜尋 199
8.5 示例:西洋棋 199
8.5.1 西洋棋與強化學習 200
8.5.2 蒙特卡洛樹搜尋示例 201
8.6 小結 203
第四篇 深度強化學習
第9章 深度強化學習 207
9.1 深度學習概述 208
9.1.1 深度表征 208
9.1.2 深度神經網路 208
9.1.3 網路可訓練 208
9.1.4 權值共享 210
9.2 深度神經網路(DNN) 210
9.2.1 基本單元——神經元 210
9.2.2 線性模型與激活函式 211
9.2.3 多層神經網路 212
9.2.4 訓練與預測 213
9.3 卷積神經網路(CNN) 214
9.3.1 概述 214
9.3.2 卷積神經網路的核心操作 215
9.3.3 卷積神經網路的核心思想 218
9.4 循環神經網路(RNN) 220
9.4.1 序列數據建模 220
9.4.2 循環神經網路基本結構 221
9.4.3 循環神經網路模型詳解 222
9.5 回顧強化學習 223
9.5.1 智慧型體和環境 224
9.5.2 基於價值的強化學習 225
9.5.3 基於策略的強化學習 225
9.5.4 基於模型的強化學習 225
9.6 深度強化學習 225
9.6.1 深度強化學習框架 226
9.6.2 深度強化學習套用 227
9.7 小結 230
第 10章 深度Q網路 231
10.1 DQN概述 232
10.1.1 深度學習與強化學習的差異對比 232
10.1.2 DQN算法簡述 232
10.2 DQN算法核心思想 235
10.2.1 目標函式 235
10.2.2 目標網路 236
10.2.3 經驗回放 236
10.3 DQN核心算法 237
10.3.1 DQN網路模型 237
10.3.2 DQN算法流程 239
10.3.3 DQN算法實現 243
10.4 DQN擴展 256
10.4.1 Double DQN 257
10.4.2 Prioritized DQN 257
10.4.3 Dueling DQN 258
10.5 小結 259
第 11章 深度強化學習算法框架 260
11.1 DDPG算法 261
11.1.1 背景介紹 261
11.1.2 基本概念及算法原理 262
11.1.3 DDPG實現框架及流程 264
11.2 A3C算法 268
11.2.1 背景介紹 269
11.2.2 A3C算法原理 269
11.2.3 異步實現框架及流程 272
11.2.4 實驗效果 274
11.3 Rainbow算法 275
11.3.1 背景介紹 275
11.3.2 Rainbow算法流程 279
11.3.3 實驗效果 280
11.4 Ape-X 算法 280
11.4.1 背景介紹 281
11.4.2 Ape-X算法架構 281
11.4.3 Ape-X算法流程 282
11.4.4 實驗效果 284
11.5 小結 285
第 12章 從圍棋AlphaGo到AlphaGo Zero 287
12.1 人工智慧與圍棋 288
12.1.1 強化學習與圍棋 288
12.1.2 AlphaGo進化階段 289
12.1.3 AlphaGo版本對比 290
12.2 AlphaGo算法詳解 292
12.2.1 策略網路 293
12.2.2 價值網路 295
12.2.3 蒙特卡洛樹搜尋 296
12.2.4 實驗結果 298
12.3 AlphaGo Zero算法詳解 299
12.3.1 問題定義 299
12.3.2 聯合網路 299
12.3.3 強化學習過程 300
12.3.4 蒙特卡洛樹搜尋 301
12.3.5 實驗結果 303
12.4 思考 305
12.5 小結 305
附錄部分
附錄A 激活函式 309
附錄B 損失函式 314
附錄C 深度學習的超參數 319
附錄D 深度學習的技巧 322
附錄E 反向傳播算法 329
參考文獻 336
3.5.2 值疊代算法實現 62
3.6 異步動態規劃 64
3.6.1 In-Place動態規劃 65
3.6.2 加權掃描動態規劃 65
3.6.3 實時動態規劃 66
3.7 討論 66
3.8 小結 67
第4章 蒙特卡洛法 68
4.1 認識蒙特卡洛法 69
4.1.1 經驗軌跡 69
4.1.2 蒙特卡洛法數學原理 74
4.1.3 蒙特卡洛法的特點 74
4.2 蒙特卡洛預測 74
4.2.1 蒙特卡洛預測算法 75
4.2.2 蒙特卡洛預測算法的實現 76
4.3 蒙特卡洛評估 80
4.4 蒙特卡洛控制 81
4.4.1 蒙特卡洛控制概述 82
4.4.2 起始點探索 84
4.4.3 非起始點探索 85
4.4.4 非固定策略 90
4.5 小結 96
第5章 時間差分法 98
5.1 時間差分概述 99
5.2 時間差分預測 99
5.2.1 時間差分預測原理 99
5.2.2 TD(λ)算法 101
5.2.3 時間差分預測特點 104
5.2.4 CartPole遊戲 104
5.3 時間差分控制Sarsa算法 106
5.3.1 Sarsa算法原理 106
5.3.2 Sarsa算法實現 108
5.4 時間差分控制Q-learning算法 114
5.4.1 Q-learning算法原理 114
5.4.2 Q-learning算法實現 115
5.5 擴展時間差分控制法 121
5.5.1 期望Sarsa算法 121
5.5.2 Double Q-learning算法 121
5.6 比較強化學習求解法 123
5.7 小結 126
第三篇 求解強化學習進階
第6章 值函式近似法 129
6.1 大規模強化學習 130
6.2 值函式近似法概述 131
6.2.1 函式近似 131
6.2.2 值函式近似的概念 133
6.2.3 值函式近似的類型 133
6.2.4 值函式近似的求解思路 134
6.3 值函式近似法原理 135
6.3.1 梯度下降算法 135
6.3.2 梯度下降與值函式近似 137
6.3.3 線性值函式近似法 138
6.4 值函式近似預測法 139
6.4.1 蒙特卡洛值函式近似預測法 139
6.4.2 時間差分TD(0)值函式近似預測法 140
6.4.3 TD(λ)值函式近似預測法 141
6.5 值函式近似控制法 142
6.5.1 值函式近似控制原理 143
6.5.2 爬山車遊戲 143
6.5.3 Q-learning值函式近似 145
6.6 小結 156
第7章 策略梯度法 157
7.1 認識策略梯度法 158
7.1.1 策略梯度概述 158
7.1.2 策略梯度法與值函式近似法的區別 159
7.1.3 策略梯度法的優缺點 160
7.2 策略目標函式 161
7.2.1 起始價值 162
7.2.2 平均價值 162
7.2.3 時間步平均獎勵 162
7.3 最佳化策略目標函式 163
7.3.1 策略梯度 163
7.3.2 評價函式 163
7.3.3 策略梯度定理 165
7.4 有限差分策略梯度法 165
7.5 蒙特卡洛策略梯度法 165
7.5.1 算法原理 166
7.5.2 算法實現 166
7.6 演員-評論家策略梯度法 177
7.6.1 算法原理 177
7.6.2 算法實現 179
7.7 小結 185
第8章 整合學習與規劃 187
8.1 基於模型的強化學習概述 188
8.1.1 基於模型的強化學習 188
8.1.2 基於模型的優點 188
8.1.3 基於模型的缺點 189
8.2 學習與規劃 189
8.2.1 學習過程 189
8.2.2 規划過程 191
8.3 架構整合 192
8.3.1 Dyna算法 193
8.3.2 優先遍歷算法 194
8.3.3 期望更新和樣本更新 196
8.4 基於模擬的搜尋 196
8.4.1 蒙特卡洛搜尋 197
8.4.2 蒙特卡洛樹搜尋 197
8.4.3 時間差分搜尋 199
8.5 示例:西洋棋 199
8.5.1 西洋棋與強化學習 200
8.5.2 蒙特卡洛樹搜尋示例 201
8.6 小結 203
第四篇 深度強化學習
第9章 深度強化學習 207
9.1 深度學習概述 208
9.1.1 深度表征 208
9.1.2 深度神經網路 208
9.1.3 網路可訓練 208
9.1.4 權值共享 210
9.2 深度神經網路(DNN) 210
9.2.1 基本單元——神經元 210
9.2.2 線性模型與激活函式 211
9.2.3 多層神經網路 212
9.2.4 訓練與預測 213
9.3 卷積神經網路(CNN) 214
9.3.1 概述 214
9.3.2 卷積神經網路的核心操作 215
9.3.3 卷積神經網路的核心思想 218
9.4 循環神經網路(RNN) 220
9.4.1 序列數據建模 220
9.4.2 循環神經網路基本結構 221
9.4.3 循環神經網路模型詳解 222
9.5 回顧強化學習 223
9.5.1 智慧型體和環境 224
9.5.2 基於價值的強化學習 225
9.5.3 基於策略的強化學習 225
9.5.4 基於模型的強化學習 225
9.6 深度強化學習 225
9.6.1 深度強化學習框架 226
9.6.2 深度強化學習套用 227
9.7 小結 230
第 10章 深度Q網路 231
10.1 DQN概述 232
10.1.1 深度學習與強化學習的差異對比 232
10.1.2 DQN算法簡述 232
10.2 DQN算法核心思想 235
10.2.1 目標函式 235
10.2.2 目標網路 236
10.2.3 經驗回放 236
10.3 DQN核心算法 237
10.3.1 DQN網路模型 237
10.3.2 DQN算法流程 239
10.3.3 DQN算法實現 243
10.4 DQN擴展 256
10.4.1 Double DQN 257
10.4.2 Prioritized DQN 257
10.4.3 Dueling DQN 258
10.5 小結 259
第 11章 深度強化學習算法框架 260
11.1 DDPG算法 261
11.1.1 背景介紹 261
11.1.2 基本概念及算法原理 262
11.1.3 DDPG實現框架及流程 264
11.2 A3C算法 268
11.2.1 背景介紹 269
11.2.2 A3C算法原理 269
11.2.3 異步實現框架及流程 272
11.2.4 實驗效果 274
11.3 Rainbow算法 275
11.3.1 背景介紹 275
11.3.2 Rainbow算法流程 279
11.3.3 實驗效果 280
11.4 Ape-X 算法 280
11.4.1 背景介紹 281
11.4.2 Ape-X算法架構 281
11.4.3 Ape-X算法流程 282
11.4.4 實驗效果 284
11.5 小結 285
第 12章 從圍棋AlphaGo到AlphaGo Zero 287
12.1 人工智慧與圍棋 288
12.1.1 強化學習與圍棋 288
12.1.2 AlphaGo進化階段 289
12.1.3 AlphaGo版本對比 290
12.2 AlphaGo算法詳解 292
12.2.1 策略網路 293
12.2.2 價值網路 295
12.2.3 蒙特卡洛樹搜尋 296
12.2.4 實驗結果 298
12.3 AlphaGo Zero算法詳解 299
12.3.1 問題定義 299
12.3.2 聯合網路 299
12.3.3 強化學習過程 300
12.3.4 蒙特卡洛樹搜尋 301
12.3.5 實驗結果 303
12.4 思考 305
12.5 小結 305
附錄部分
附錄A 激活函式 309
附錄B 損失函式 314
附錄C 深度學習的超參數 319
附錄D 深度學習的技巧 322
附錄E 反向傳播算法 329
參考文獻 336

相關詞條

熱門詞條

聯絡我們