深度強化學習原理與實踐

內容簡介

本書構建了一個完整的深度強化學習理論和實踐體系：從馬爾可夫決策過程開始，根據價值函式、策略函式求解貝爾曼方程，到利用深度學習模擬價值網路和策略網路。書中詳細介紹了深度強化學習相關算法，如Rainbow、Ape-X算法等，並闡述了相關算法的具體實現方式和代表性套用（如AlphaGo）。此外，本書還深度剖析了強化學習各算法之間的聯繫，有助於讀者舉一反三。

本書分為四篇：初探強化學習、求解強化學習、求解強化學習進階和深度強化學習。涉及基礎理論到深度強化學習算法框架的各方面內容，反映了深度強化學習領域過去的發展歷程和研究進展，有助於讀者發現該領域中新的研究問題和方向。

圖書目錄

第一篇　初探強化學習

第　1章強化學習緒論　3

1.1　初探強化學習　4

1.1.1　強化學習與機器學習　5

1.1.2　強化學習與監督學習的區別　6

1.1.3　歷史發展　8

1.2　基礎理論　10

1.2.1　組成元素　11

1.2.2　環境模型　12

1.2.3　探索與利用　12

1.2.4　預測與控制　13

1.2.5　強化學習的特點　14

1.3　套用案例　14

1.4　強化學習的思考　18

1.4.1　強化學習待解決問題　18

1.4.2　強化學習的突破點　23

1.5　小結　25

第　2章數學基礎及環境　26

2.1　簡介　27

2.2　馬爾可夫決策過程　27

2.2.1　馬爾可夫性質　27

2.2.2　馬爾可夫決策過程　27

2.3　強化學習的數學基礎理論　29

2.3.1　策略　30

2.3.2　獎勵　30

2.3.3　價值函式　31

2.4　求解強化學習　31

2.4.1　貝爾曼方程　31

2.4.2　最優值函式　32

2.4.3　最優策略　32

2.4.4　求解最優策略　33

2.5　示例：HelloGrid迷宮環境　36

2.5.1　初識OpenAI Gym庫　37

2.5.2　建立HelloGrid環境　38

2.6　小結　43

第二篇　求解強化學習

第3章　動態規劃法　47

3.1　動態規劃　48

3.1.1　動態規劃概述　48

3.1.2　動態規劃與貝爾曼方程　48

3.2　策略評估　49

3.2.1　策略評估算法　49

3.2.2　策略評估算法實現　50

3.3　策略改進　54

3.4　策略疊代　56

3.4.1　策略疊代算法　57

3.4.2　策略疊代算法實現　58

3.5　值疊代　60

3.5.1　值疊代算法　61

深度強化學習原理與實踐

基本介紹

內容簡介

圖書目錄

相關詞條

熱門詞條