《強化學習原理及其套用》是2014年6月1日科學出版社出版的圖書,作者是王雪松、朱美強、程玉虎。
基本介紹
- 書名:強化學習原理及其套用
- 作者:王雪松、朱美強、程玉虎
- ISBN:9787030406408
- 頁數:272
- 定價:89.00
- 出版社:科學出版社
- 出版時間:2014年6月1日
- 裝幀:平裝
- 開本:16
- 叢書名:智慧型科學技術著作叢書
內容簡介,圖書目錄,
內容簡介
作為一類求解序貫最佳化決策問題的有效方法,強化學習在運籌學、計算科學和自動控制等領域得到廣泛套用,業已成為機器學習領域活躍的研究分支之一。現階段,強化學習研究的核心問題是如何解決維數災難,提高學習效率。強化學習原理及其套用的主要內容正是針對上述問題展開的,分別從值函式逼近、直接策略搜尋和基於譜方法的學習3 個方面來闡述強化學習的理論、方法及其套用,共13 章。第1 章~第2 章為強化學習概述和相關基礎理論。第3 章~第5 章為基於值函式估計的強化學習方法,包括基於支持向量機、測地高斯基的強化學習和基於抽象狀態的貝葉斯強化學習。第6 章~第9 章為直接策略搜尋強化學習方法,包括基於增量小二乘時間差分的ActorCritic 學習、融合經驗數據的Actor-Critic 強化學習、基於資格跡的折扣回報型增量自然Actor-Critic 學習和基於參數探索的期望大策略搜尋。第10 章~第13章為基於譜方法的強化學習研究,包括基於拉普拉斯特徵映射的啟發式策略選擇、DynA 規劃和遷移研究。為便於套用強化學習原理及其套用闡述的算法,書後附有部分強化學習算法MATLAB 源程式。
圖書目錄
《智慧型科學技術著作叢書》序序前言第 1章強化學習概述 t1
1.1強化學習模型及其基本要素 t 2
1.1.1強化學習模型 t 2
1.1.2強化學習基本要素 t 3
1.2強化學習的發展歷史 t 5
1.2.1試錯學習 t 5
1.2.2動態規劃與zui優控制 t 6
1.2.3時間差分學習 t 7
1.3強化學習研究概述 t 7
1.3.1分層強化學習研究現狀 t 8
1.3.2近似強化學習研究現狀 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .10
1.3.3啟發式回報函式設計研究現狀 t 15
1.3.4探索和利用平衡研究現狀 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .16
1.3.5基於譜圖理論的強化學習研究現狀 t 17
1.4強化學習方法的套用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.4.1自適應最佳化控制中的套用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .19
1.4.2調度管理中的套用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.4.3人工智慧問題求解中的套用 t 22
1.1強化學習模型及其基本要素 t 2
1.1.1強化學習模型 t 2
1.1.2強化學習基本要素 t 3
1.2強化學習的發展歷史 t 5
1.2.1試錯學習 t 5
1.2.2動態規劃與zui優控制 t 6
1.2.3時間差分學習 t 7
1.3強化學習研究概述 t 7
1.3.1分層強化學習研究現狀 t 8
1.3.2近似強化學習研究現狀 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .10
1.3.3啟發式回報函式設計研究現狀 t 15
1.3.4探索和利用平衡研究現狀 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .16
1.3.5基於譜圖理論的強化學習研究現狀 t 17
1.4強化學習方法的套用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.4.1自適應最佳化控制中的套用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .19
1.4.2調度管理中的套用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.4.3人工智慧問題求解中的套用 t 22
1.5本書主要內容及安排 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
參考文獻 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
第 2章強化學習基礎理論 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.1馬爾科夫決策過程概述 t 41
2.1.1馬爾科夫決策過程 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.1.2策略和值函式 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.2基於模型的動態規劃方法 t 44
2.2.1線性規劃 t 45
2.2.2策略疊代 t 45
2.2.3值疊代 t 46
2.2.4廣義策略疊代 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
2.3模型未知的強化學習 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
2.3.1強化學習基礎 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
2.3.2蒙特卡羅法 t 49
2.3.3時間差分 TD法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .54
2.3.4 Q學習與 SARSA學習 t 56
2.3.5 DynA學習框架 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .57
2.3.6直接策略方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
2.3.7 Actor-Critic學習 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .60
2.4近似強化學習 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
2.4.1帶值函式逼近的 TD學習 t 61
2.4.2近似值疊代 t 63
2.4.3近似策略疊代 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
2.4.4zui小二乘策略疊代 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
2.1.1馬爾科夫決策過程 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.1.2策略和值函式 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.2基於模型的動態規劃方法 t 44
2.2.1線性規劃 t 45
2.2.2策略疊代 t 45
2.2.3值疊代 t 46
2.2.4廣義策略疊代 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
2.3模型未知的強化學習 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
2.3.1強化學習基礎 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
2.3.2蒙特卡羅法 t 49
2.3.3時間差分 TD法. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .54
2.3.4 Q學習與 SARSA學習 t 56
2.3.5 DynA學習框架 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .57
2.3.6直接策略方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
2.3.7 Actor-Critic學習 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .60
2.4近似強化學習 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
2.4.1帶值函式逼近的 TD學習 t 61
2.4.2近似值疊代 t 63
2.4.3近似策略疊代 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
2.4.4zui小二乘策略疊代 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
2.5本章小結 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
參考文獻 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
第 3章基於支持向量機的強化學習 t 71
3.1支持向量機原理. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .71
3.1.1機器學習 t 72
3.1.2核學習 t 73
3.1.3 SVM的思想 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
3.1.4 SVM的重要概念 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
3.2基於半參數支持向量機的強化學習. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .75
3.2.1基於半參數回歸模型的 Q學習結構 t 76
3.2.2半參數回歸模型的學習 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .78
3.2.3仿真研究 t 79
3.3基於機率型支持向量機的強化學習. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .82
3.3.1基於機率型支持向量機分類機的 Q學習 t 82
3.3.2機率型支持向量分類機 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .83
3.3.3仿真研究 t 85
3.1.1機器學習 t 72
3.1.2核學習 t 73
3.1.3 SVM的思想 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
3.1.4 SVM的重要概念 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
3.2基於半參數支持向量機的強化學習. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .75
3.2.1基於半參數回歸模型的 Q學習結構 t 76
3.2.2半參數回歸模型的學習 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .78
3.2.3仿真研究 t 79
3.3基於機率型支持向量機的強化學習. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .82
3.3.1基於機率型支持向量機分類機的 Q學習 t 82
3.3.2機率型支持向量分類機 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .83
3.3.3仿真研究 t 85
3.4本章小結 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
參考文獻 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
第 4章基於狀態 --動作圖測地高斯基的策略疊代強化學習 t 90
4.1強化學習中的基函式選擇 t 90
4.2基於狀態–動作圖測地高斯基的策略疊代. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .91
4.2.1 MDP的狀態 –動作空間圖 t 92
4.2.2狀態 –動作圖上測地高斯核 t 93
4.2.3基於狀態 –動作圖測地高斯基的動作值函式逼近 . . . . . . . . . . . . . . . . . . . . . . . 94
4.3算法步驟 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
4.4仿真研究 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
4.2基於狀態–動作圖測地高斯基的策略疊代. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .91
4.2.1 MDP的狀態 –動作空間圖 t 92
4.2.2狀態 –動作圖上測地高斯核 t 93
4.2.3基於狀態 –動作圖測地高斯基的動作值函式逼近 . . . . . . . . . . . . . . . . . . . . . . . 94
4.3算法步驟 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
4.4仿真研究 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
4.5本章小結 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .104
參考文獻 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
第 5章基於抽象狀態的貝葉斯強化學習電梯群組調度 . . . . . . . . . . . . . . . . . . . . . . 106
5.1電梯群組調度強化學習模型. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .107
5.2基於抽象狀態的貝葉斯強化學習電梯群組調度 t 108
5.2.1狀態空間抽象 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
5.2.2強化學習系統的回報函式 t 110
5.2.3貝葉斯網推斷 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
5.2.4狀態 –動作值函式的神經網路逼近 t 111
5.2.5動作選擇策略 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
5.3仿真研究 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .112
5.2基於抽象狀態的貝葉斯強化學習電梯群組調度 t 108
5.2.1狀態空間抽象 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
5.2.2強化學習系統的回報函式 t 110
5.2.3貝葉斯網推斷 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
5.2.4狀態 –動作值函式的神經網路逼近 t 111
5.2.5動作選擇策略 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
5.3仿真研究 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .112
5.4本章小結 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .115
參考文獻 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115
第 6章基於增量zui小二乘時間差分的 Actor-Critic學習 t 117
6.1策略梯度理論 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
6.2基於常規梯度的增量式 Actor-Critic學習 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
6.3基於 iLSTD(λ)的 Actor-Critic學習 t 121
6.4仿真研究 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .123
6.2基於常規梯度的增量式 Actor-Critic學習 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120
6.3基於 iLSTD(λ)的 Actor-Critic學習 t 121
6.4仿真研究 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .123
6.5本章小結 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .126
參考文獻 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
第 7章融合經驗數據的 Actor-Critic強化學習 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
7.1增量式 Actor-Critic學習算法的數據有效性改進 . . . . . . . . . . . . . . . . . . . . . 128
7.1.1基於 RLSTD(λ)或 iLSTD(λ)的增量式 Actor-Critic學習 t 130
7.1.2算法步驟 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
7.1.3仿真研究 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
7.2基於自適應重要採樣的 Actor-Critic學習 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
7.2.1基於zui小二乘時間差分的 Actor-Critic強化學習 t 141
7.2.2基於重要採樣的估計 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .143
7.2.3基於自適應重要採樣的估計 t 145
7.2.4算法步驟 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
7.2.5仿真研究 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
7.1.1基於 RLSTD(λ)或 iLSTD(λ)的增量式 Actor-Critic學習 t 130
7.1.2算法步驟 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
7.1.3仿真研究 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
7.2基於自適應重要採樣的 Actor-Critic學習 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140
7.2.1基於zui小二乘時間差分的 Actor-Critic強化學習 t 141
7.2.2基於重要採樣的估計 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .143
7.2.3基於自適應重要採樣的估計 t 145
7.2.4算法步驟 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
7.2.5仿真研究 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 147
7.3本章小結 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .150
參考文獻 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
第 8章基於資格跡的折扣回報型增量自然 Actor-Critic學習 t 153
8.1自然梯度 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .154
8.2自然策略梯度的估計方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
8.2.1基於 Fisher信息矩陣的自然策略梯度 t 155
8.2.2基於兼容函式逼近器的自然策略梯度 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156
8.2.3自然策略梯度的仿真 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .157
8.2.4自然策略梯度的特性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .158
8.3基於資格跡的折扣回報型增量自然 Actor-Critic學習 t 158
8.4仿真研究 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .161
8.2自然策略梯度的估計方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155
8.2.1基於 Fisher信息矩陣的自然策略梯度 t 155
8.2.2基於兼容函式逼近器的自然策略梯度 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156
8.2.3自然策略梯度的仿真 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .157
8.2.4自然策略梯度的特性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .158
8.3基於資格跡的折扣回報型增量自然 Actor-Critic學習 t 158
8.4仿真研究 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .161
8.5本章小結 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .164
參考文獻 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
第 9章基於參數探索的 EM策略搜尋 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .166
9.1策略搜尋強化學習方法分析. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .166
9.2期望化策略搜尋強化學習 t 167
9.3基於參數探索的 EM策略搜尋學習 t 169
9.4算法步驟 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .171
9.5仿真研究 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .172
9.5.1小球平衡問題 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172
9.5.2倒立擺平衡問題 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175
9.2期望化策略搜尋強化學習 t 167
9.3基於參數探索的 EM策略搜尋學習 t 169
9.4算法步驟 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .171
9.5仿真研究 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .172
9.5.1小球平衡問題 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172
9.5.2倒立擺平衡問題 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175
9.6本章小結 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .177
參考文獻 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 178
第 10章基於譜圖理論的強化學習基礎 t 180
10.1譜圖理論與譜圖分割. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .180
10.1.1譜圖理論與譜方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .180
10.1.2譜圖分割和譜聚類 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .181
10.2基於譜圖理論的流形和距離度量學習 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183
10.2.1流形學習概述 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183
10.2.2基於流形學習的度量學習 t 183
10.3基於拉普拉斯特徵映射法的強化學習 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
10.3.1拉普拉斯特徵映射法基礎 t 185
10.3.2基於拉普拉斯特徵映射的強化學習 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
10.1.1譜圖理論與譜方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .180
10.1.2譜圖分割和譜聚類 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .181
10.2基於譜圖理論的流形和距離度量學習 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183
10.2.1流形學習概述 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183
10.2.2基於流形學習的度量學習 t 183
10.3基於拉普拉斯特徵映射法的強化學習 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185
10.3.1拉普拉斯特徵映射法基礎 t 185
10.3.2基於拉普拉斯特徵映射的強化學習 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186
10.4基於拉普拉斯特徵映射的強化學習分析. . . . . . . . . . . . . . . . . . . . . . . . . . . . .190
10.5本章小結. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .191
參考文獻 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191
第 11章基於拉普拉斯特徵映射的啟發式策略選擇 t 194
11.1探索和利用平衡問題概述 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194
11.2啟發式策略選擇原理. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .195
11.3基於拉普拉斯特徵映射的啟發式策略選擇 t 196
11.3.1基本思想 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196
11.3.2基於拉普拉斯特徵映射的啟發式 Q學習 t 197
11.4算法步驟、計算複雜度和適用範圍 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202
11.4.1算法主要步驟 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202
11.4.2計算複雜度 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202
11.4.3適用範圍 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203
11.5仿真研究. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .203
11.5.1 5房間格子世界 t 203
11.5.2對稱 4房間格子世界 t 205
11.1探索和利用平衡問題概述 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194
11.2啟發式策略選擇原理. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .195
11.3基於拉普拉斯特徵映射的啟發式策略選擇 t 196
11.3.1基本思想 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196
11.3.2基於拉普拉斯特徵映射的啟發式 Q學習 t 197
11.4算法步驟、計算複雜度和適用範圍 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202
11.4.1算法主要步驟 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202
11.4.2計算複雜度 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202
11.4.3適用範圍 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203
11.5仿真研究. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .203
11.5.1 5房間格子世界 t 203
11.5.2對稱 4房間格子世界 t 205
11.6本章小結. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .206
參考文獻 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206
第12章基於拉普拉斯特徵映射的 DynA規劃 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .208
12.1強化學習在移動機器人自主導航中的套用研究概述. . . . . . . . . . . . . . . . .208
12.2強化學習在井下救援機器人導航中的套用研究 t 209
12.3基於拉普拉斯特徵映射的 DynA Q算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . .210
12.3.1 DynA Q的基本思想 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210
12.3.2基於譜圖理論的優先權機制 t 211
12.3.3算法步驟 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212
12.3.4計算複雜度分析和適用範圍 t 212
12.4仿真結果及分析 t 212
12.4.1 5房間格子地圖 t 213
12.4.2對稱 4房間格子地圖 t 213
12.4.3 9房間格子地圖 t 214
12.2強化學習在井下救援機器人導航中的套用研究 t 209
12.3基於拉普拉斯特徵映射的 DynA Q算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . .210
12.3.1 DynA Q的基本思想 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 210
12.3.2基於譜圖理論的優先權機制 t 211
12.3.3算法步驟 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212
12.3.4計算複雜度分析和適用範圍 t 212
12.4仿真結果及分析 t 212
12.4.1 5房間格子地圖 t 213
12.4.2對稱 4房間格子地圖 t 213
12.4.3 9房間格子地圖 t 214
12.5本章小結. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .215
參考文獻 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 215
第 13章基於譜方法的強化學習遷移研究 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217
13.1基於譜圖理論的強化學習遷移 t 217
13.1.1強化學習遷移概述 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .217
13.1.2基於譜圖理論的強化學習遷移分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219
13.2基於譜圖理論的 Option自動生成研究. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .220
13.2.1 Option原理 t 220
13.2.2基於譜圖分割的 Option自動生成算法概述 t 221
13.2.3虛擬值函式法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222
13.3基於譜圖理論的強化學習混合遷移方法. . . . . . . . . . . . . . . . . . . . . . . . . . . . .226
13.3.1基函式的線性插值 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .226
13.3.2遷移基函式的逼近能力 t 227
13.3.3基函式與子任務策略的混合遷移 t 230
13.4算法步驟和適用範圍. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .231
13.4.1算法步驟 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231
13.4.2適用範圍 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232
13.5仿真實驗與分析 t 232
13.5.1地圖不變遷移 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233
13.5.2地圖比例放大遷移 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .233
13.5.3實驗結果統計分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .235
13.1.1強化學習遷移概述 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .217
13.1.2基於譜圖理論的強化學習遷移分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 219
13.2基於譜圖理論的 Option自動生成研究. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .220
13.2.1 Option原理 t 220
13.2.2基於譜圖分割的 Option自動生成算法概述 t 221
13.2.3虛擬值函式法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222
13.3基於譜圖理論的強化學習混合遷移方法. . . . . . . . . . . . . . . . . . . . . . . . . . . . .226
13.3.1基函式的線性插值 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .226
13.3.2遷移基函式的逼近能力 t 227
13.3.3基函式與子任務策略的混合遷移 t 230
13.4算法步驟和適用範圍. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .231
13.4.1算法步驟 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231
13.4.2適用範圍 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232
13.5仿真實驗與分析 t 232
13.5.1地圖不變遷移 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233
13.5.2地圖比例放大遷移 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .233
13.5.3實驗結果統計分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .235
13.6本章小結. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .237
參考文獻 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 237
附錄