基於函式逼近的強化學習與動態規劃

基於函式逼近的強化學習與動態規劃

《基於函式逼近的強化學習與動態規劃》是2019年人民郵電出版社出版的圖書,作者是盧西恩·布索尼、羅伯特·巴布斯卡、巴特·德·舒特、達米安·厄恩斯特。

基本介紹

  • 中文名:基於函式逼近的強化學習與動態規劃
  • 作者:盧西恩·布索尼、羅伯特·巴布斯卡、巴特·德·舒特、達米安·厄恩斯特
  • 出版社:人民郵電出版社
  • ISBN:9787115508300
內容簡介,圖書目錄,

內容簡介

本書討論大規模連續空間的強化學習理論及方法,重點介紹使用函式逼近的強化學習和動態規劃方法。該研究已成為近年來計算機科學與技術領域中活躍的研究分支之一。
全書共分6章。第1章為概述;第2章為動態規劃與強化學習介紹;第3章為大規模連續空間中的動態規劃與強化學習;第4章為基於模糊表示的近似值疊代;第5章為用於線上學習和連續動作控制的近似策略疊代;第6章為基於交叉熵基函式最佳化的近似策略搜尋。
本書可以作為理工科高等院校計算機專業和自動控制專業研究生的教材,也可以作為相關領域科技工作者和工程技術人員的參考書。

圖書目錄

第 1章 概述 1
1.1 動態規劃與強化學習問題 2
1.2 動態規劃與強化學習中的逼近 5
1.3 關於本書 7
第 2章 動態規劃與強化學習介紹 9
2.1 引言 9
2.2 馬爾可夫決策過程 12
2.2.1 確定性情況 12
2.2.2 隨機性情況 16
2.3 值疊代 20
2.3.1 基於模型的值疊代 20
2.3.2 模型無關的值疊代與探索的必要性 25
2.4 策略疊代 27
2.4.1 基於模型的策略疊代 28
2.4.2 模型無關的策略疊代 33
2.5 策略搜尋 35
2.6 總結與討論 38
第3章 大規模連續空間中的動態規劃與強化學習 40
3.1 介紹 40
3.2 大規模連續空間中近似的必要性 43
3.3 近似框架 45
3.3.1 帶參近似 45
3.3.2 無參近似 48
3.3.3 帶參與無參逼近器的比較 49
3.3.4 附註 50
3.4 近似值疊代 51
3.4.1 基於模型的帶參近似值疊代算法 51
3.4.2 模型無關的帶參近似值疊代算法 54
3.4.3 無參近似值疊代算法 58
3.4.4 非擴張近似的作用及收斂性 59
3.4.5 實例:用於直流電機的近似Q值疊代 62
3.5 近似策略疊代 67
3.5.1 用於近似策略評估的類值疊代算法 68
3.5.2 基於線性帶參近似的模型無關策略評估 70
3.5.3 基於無參近似的策略評估 80
3.5.4 帶回滾的基於模型的近似策略評估 80
3.5.5 策略改進與近似策略疊代 81
3.5.6 理論保障 84
3.5.7 實例:用於直流電機的最小二乘策略疊代 86
3.6 自動獲取值函式逼近器 90
3.6.1 基函式最最佳化方法 91
3.6.2 基函式構造 93
3.6.3 附註 95
3.7 近似策略搜尋 95
3.7.1 策略梯度與行動者-評論家算法 96
3.7.2 梯度無關的策略搜尋 101
3.7.3 實例:用於直流電機問題的梯度無關策略搜尋 103
3.8 近似值疊代、近似策略疊代及近似策略搜尋算法的比較 106
3.9 總結與討論 108
第4章 基於模糊表示的近似值疊代 110
4.1 引言 110
4.2 模糊Q值疊代 112
4.2.1 模糊Q值疊代的近似和投影映射 112
4.2.2 同步和異步模糊Q值疊代 116
4.3 模糊Q值疊代的分析 119
4.3.1 收斂性 119
4.3.2 一致性 126
4.3.3 計算複雜度 131
4.4 最佳化隸屬度函式 132
4.4.1 隸屬度函式最佳化的一般方法 132
4.4.2 交叉熵最佳化 133
4.4.3 基於交叉熵隸屬度函式最佳化的模糊Q值疊代 135
4.5 實驗研究 137
4.5.1 直流電機:收斂性和一致性研究 137
4.5.2 雙連桿機械臂:動作插值的效果以及與擬合Q值疊代的比較 142
4.5.3 倒立擺:實時控制 146
4.5.4 過山車:隸屬度函式最佳化的效果 149
4.6 總結與討論 152
第5章 用於線上學習和連續動作控制的近似策略疊代 154
5.1 引言 154
5.2 最小二乘策略疊代的概述 155
5.3 線上最小二乘策略疊代 157
5.4 使用先驗知識的線上LSPI 161
5.4.1 使用策略近似的線上LSPI 161
5.4.2 具有單調策略的線上LSPI 162
5.5 採用連續動作、多項式近似的LSPI 165
5.6 實驗研究 167
5.6.1 用於倒立擺的線上LSPI 167
5.6.2 用於雙連桿機械臂的線上LSPI 178
5.6.3 使用直流電機先驗知識的線上LSPI 181
5.6.4 在倒立擺中使用帶有連續動作逼近器的LSPI 183
5.7 總結與討論 187
第6章 基於交叉熵基函式最佳化的近似策略搜尋 189
6.1 介紹 189
6.2 交叉熵最佳化方法 190
6.3 交叉熵策略搜尋 192
6.3.1 一般方法 192
6.3.2 基於徑向基函式的交叉熵策略搜尋 197
6.4 實驗研究 199
6.4.1 離散時間二重積分 199
6.4.2 腳踏車平衡 206
6.4.3 HIV傳染病控制的計畫性間斷治療 212
6.5 總結與討論 215
附錄A 極端隨機樹 217
附錄B 交叉熵方法 221
縮略語 227
參考文獻 232

熱門詞條

聯絡我們