TensorFlow2強化學習手冊

內容簡介

本書首先介紹深度強化學習的基礎知識以及TensorFlow 2.x的**主要版本。隨後介紹OpenAI Gym、基於模型的RL和無模型的RL，並學習如何開發基本代理。深入介紹發現如何實施高級深度強化學習算法，例如行動者批評、深度確定性策略梯度、深度Q網路、近端策略最佳化以及深度循環Q網路，以訓練RL代理。同時，本書通過構建用於自動完成任務的加密貨幣交易代理，股票/股票交易代理和智慧型代理等實例，探索現實世界中的強化學習。最後，本書介紹如何使用TensorFlow 2.x將深度強化學習代理部署到雲並構建跨平台應用程式。

圖書目錄

第 1 章使用 TensorFlow 2.x 開發深度強化學習的基本模組 1

1.1 技術要求 1

1.2 構建訓練強化學習智慧型體的環境和獎勵機制 1

1.2.1 前期準備 2

1.2.2 實現步驟 2

1.2.3 工作原理 8

1.3 針對離散動作空間和離散決策問題實現基於神經網路的強化學習策略 8

1.3.1 前期準備 9

1.3.2 實現步驟 9

1.3.3 工作原理 13

1.4 針對連續動作空間和連續控制問題實現基於神經網路的強化學習策略 13

1.4.1 前期準備 14

1.4.2 實現步驟 14

1.4.3 工作原理 19

1.5 將 OpenAI Gym 作為強化學習的訓練環境 20

1.5.1 前期準備 20

1.5.2 實現步驟 20

1.5.3 工作原理 22

1.6 構建神經網路智慧型體 22

1.6.1 前期準備 23

1.6.2 實現步驟 23

1.6.3 工作原理 26

1.7 構建神經網路進化智慧型體 27

1.7.1 前期準備 27

1.7.2 實現步驟 27

1.7.3 工作原理 34

1.8 參考資料 34

第 2 章基於價值、策略和行動者-評論家的深度強化學習算法實現. 35

2.1 技術要求 35

2.2 構建用於訓練強化學習智慧型體的隨機環境 35

2.2.1 前期準備 36

2.2.2 實現步驟 37

2.2.3 工作原理 42

2.3 構建基於價值的強化學習智慧型體算法 42

2.3.1 前期準備 43

2.3.2 實現步驟 43

2.3.3 工作原理 46

2.4 實現時序差分學習 47

2.4.1 前期準備 47

TensorFlow2強化學習手冊

基本介紹

內容簡介

圖書目錄

相關詞條

熱門詞條