Python強化學習實戰：使用OpenAI Gym,TensorFlow和Keras(清華大學出版社出版的圖書)

Python強化學習實戰：使用OpenAI Gym,TensorFlow和Keras(清華大學出版社出版的圖書)

本詞條是多義詞，共2個義項

更多義項 ▼ 收起列表 ▲

《 Python強化學習實戰：使用OpenAI Gym、TensorFlow和Keras》是清華大學出版社出版的一本圖書。

基本介紹

中文名：Python強化學習實戰：使用OpenAI Gym,TensorFlow和Keras
出版社：清華大學出版社
ISBN：9787302570097
作者：[美] 托威赫·貝索洛

內容簡介,目錄,

內容簡介

主要內容：使用Python實現強化學習算法；套用A相架，例如OpenAl Gym.TensorFlow和人cras利用雲資源部窖並訓練基於強化學習的解決方案；實戰遢化學習實際套用

目錄

清華大學出版社-圖書目錄

第1章強化學習導論 1

1.1 強化學習的發展史 2

1.2 MDP及其與強化學習的關係 3

1.3 強化學習算法和強化學習框架 5

1.4 Q學習 8

1.5 強化學習的套用 9

1.5.1 經典控制問題 9

1.5.2 《超級馬里奧兄弟》遊戲 10

1.5.3 《毀滅戰士》遊戲 11

1.5.4 基於強化學習的做市策略 12

1.5.5 《刺蝟索尼克》遊戲 12

1.6 本章小結 13

第2章強化學習算法 15

2.1 OpenAI Gym 15

2.2 基於策略的學習 16

2.3 策略梯度的數學解釋 17

2.4 基於梯度上升的策略最佳化 19

2.5 使用普通策略梯度法求解車桿問題 20

2.6 什麼是折扣獎勵，為什麼要使用它們 23

2.7 策略梯度的不足 28

2.8 近端策略最佳化(PPO)和Actor-Critic模型 29

2.9 實現PPO並求解《超級馬里奧兄弟》 30

2.9.1 《超級馬里奧兄弟》概述 30

2.9.2 安裝環境軟體包 31

2.9.3 資源庫中的代碼結構 32

2.9.4 模型架構 32

2.10 應對難度更大的強化學習挑戰 37

2.11 容器化強化學習實驗 39

2.12 實驗結果 41

2.13 本章小結 41

第3章強化學習算法：Q學習及其變種 43

3.1 Q學習 43

3.2 時序差分(TD)學習 45

3.3 epsilon-greedy算法 46

3.4 利用Q學習求解冰湖問題 47

3.5 深度Q學習 50

3.6 利用深度Q學習玩《毀滅戰士》遊戲 51

3.7 訓練與性能 56

3.8 深度Q學習的局限性 57

3.9 雙Q學習和雙深度Q網路 58

3.10 本章小結 59

第4章基於強化學習的做市策略 61

4.1 什麼是做市 61

4.2 Trading Gym 63

4.3 為什麼強化學習適用於做市 64

4.4 使用Trading Gym合成訂單簿數據 66

4.5 使用Trading Gym生成訂單簿數據 67

4.6 實驗設計 68

4.6.1 強化學習方法1：策略梯度 71

4.6.2 強化學習方法2：深度Q網路 71

4.7 結果和討論 73

4.8 本章小結 74

第5章自定義OpenAI強化學習環境 75

5.1 《刺蝟索尼克》遊戲概述 75

5.2 下載該遊戲 76

5.3 編寫該環境的代碼 78

5.4 A3C Actor-Critic 82

5.5 本章小結 88

附錄A 原始碼 91

相關詞條

熱門詞條

聯絡我們