強化學習(2018年機械工業出版社出版的圖書)

內容簡介

《強化學習》共有19章，分為六大部分，詳細介紹了強化學習中各領域的基本理論和新進展，內容包括：MDP、動態規劃、蒙特卡羅方法、批處理強化學習、TD學習、Q學習、策略疊代的小二乘法、遷移學習、貝葉斯強化學習、一階邏輯MDP、層次式強化學習、演化計算、預測性定義狀態表示、去中心化的部分可觀察MDP、博弈論和多學習器強化學習等內容，並闡述強化學習與心理和神經科學、遊戲領域、機器人領域的關係和套用，後提出未來發展趨勢及研究熱點問題，有助於年輕的研究者了解整個強化學習領域，發現新的研究方向。本書適合作為高等院校機器學習相關課程的參考書，也可作為人工智慧領域從業技術人員的參考用書。

圖書目錄

譯者序

序言

前言

作者清單

部分　緒論

第1章　強化學習和馬爾可夫決策過程 2

1.1　簡介 2

1.2　時序決策 3

1.2.1　接近時序決策 4

1.2.2　線上學習與離線學習 4

1.2.3　貢獻分配 5

1.2.4　探索–運用的平衡 5

1.2.5　反饋、目標和性能 5

1.2.6　表達 6

1.3　正式的框架 6

1.3.1　馬爾可夫決策過程 7

1.3.2　策略 9

1.3.3　準則和減量 9

1.4　價值函式和貝爾曼方程 10

1.5　求解馬爾可夫決策過程 12

1.6　動態規劃：基於模型的解決方案 13

1.6.1　基本的動態規划算法 13

1.6.2　高效的動態規划算法 17

1.7　強化學習：無模型的解決方案 19

1.7.1　時序差分學習 20

1.7.2　蒙特卡羅方法 23

1.7.3　高效的探索和價值更新 24

1.8　總結 27

參考文獻 27

第二部分　高效的解決方案框架

第2章　批處理強化學習 32

2.1　簡介 32

2.2　批處理強化學習問題 33

2.2.1　批處理學習問題 33

2.2.2　增長批處理學習問題 34

2.3　批處理強化學習算法的基礎 34

2.4　批處理強化學習算法 37

2.4.1　基於核的近似動態規劃 37

2.4.2　擬合Q疊代 39

2.4.3　基於小二乘的策略疊代 40

強化學習(2018年機械工業出版社出版的圖書)

基本介紹

內容簡介

圖書目錄

作者簡介

相關詞條

熱門詞條