基於函式逼近的強化學習與動態規劃

內容簡介

本書討論大規模連續空間的強化學習理論及方法，重點介紹使用函式逼近的強化學習和動態規劃方法。該研究已成為近年來計算機科學與技術領域中活躍的研究分支之一。

全書共分6章。第1章為概述；第2章為動態規劃與強化學習介紹；第3章為大規模連續空間中的動態規劃與強化學習；第4章為基於模糊表示的近似值疊代；第5章為用於線上學習和連續動作控制的近似策略疊代；第6章為基於交叉熵基函式最佳化的近似策略搜尋。

本書可以作為理工科高等院校計算機專業和自動控制專業研究生的教材，也可以作為相關領域科技工作者和工程技術人員的參考書。

第　1章概述　1

1．1　動態規劃與強化學習問題　2

1．2　動態規劃與強化學習中的逼近　5

1．3　關於本書　7

第　2章動態規劃與強化學習介紹　9

2．1　引言　9

2．2　馬爾可夫決策過程　12

2．2．1　確定性情況　12

2．2．2　隨機性情況　16

2．3　值疊代　20

2．3．1　基於模型的值疊代　20

2．3．2　模型無關的值疊代與探索的必要性　25

2．4　策略疊代　27

2．4．1　基於模型的策略疊代　28

2．4．2　模型無關的策略疊代　33

2．5　策略搜尋　35

2．6　總結與討論　38

第3章　大規模連續空間中的動態規劃與強化學習　40

3．1　介紹　40

3．2　大規模連續空間中近似的必要性　43

3．3　近似框架　45

3．3．1　帶參近似　45

3．3．2　無參近似　48

3．3．3　帶參與無參逼近器的比較　49

3．3．4　附註　50

3．4　近似值疊代　51

3．4．1　基於模型的帶參近似值疊代算法　51

3．4．2　模型無關的帶參近似值疊代算法　54

3．4．3　無參近似值疊代算法　58

3．4．4　非擴張近似的作用及收斂性　59

3．4．5　實例：用於直流電機的近似Q值疊代　62

3．5　近似策略疊代　67

3．5．1　用於近似策略評估的類值疊代算法　68

3．5．2　基於線性帶參近似的模型無關策略評估　70

3．5．3　基於無參近似的策略評估　80

3．5．4　帶回滾的基於模型的近似策略評估　80

3．5．5　策略改進與近似策略疊代　81

3．5．6　理論保障　84