《 Python強化學習實戰:使用OpenAI Gym、TensorFlow和Keras》是清華大學出版社出版的一本圖書。 主要內容:使用Python實現強化學習算法;套用A相架,例如OpenAl Gym.TensorFlow和人cras利用雲資源部窖並訓練基於強化學習的解決方案;實戰遢化學習實際套用
目 錄第1章 強化學習導論 11.1 強化學習的發展史 21.2 MDP及其與強化學習的關係 31.3 強化再謎局學習算法和強化學習框架 51.4 Q學陵櫃辨拜習 81.5 強化學習的套用 91.5.1 經典控制問題 91.5.2 《超級馬里奧兄弟》遊戲 101.5.3 《毀滅戰士》遊戲 111.5.4 基於強化學習的料拔格做市策略 121.5.5 《刺蝟索尼克》遊戲 121.6 本章小結 13第2章 強化學習算法 152.1 OpenAI Gym 152.2 基於策略的學習 162.3 策略梯度的數學解釋 172.4 基於梯度上升的策略最佳化 192.5 使用普通策永碑捆略梯度法求解車桿問題 202.6 什麼是折扣獎勵,為什麼要使用它戶嘗設們 232.7 策略梯度的不足 282.8 近端策略最佳化(PPO)和Actor-Critic模型 292.9 實現PPO並求解《超級馬里奧兄弟酷乘》 302.9.1 《超級馬里奧兄弟》概述 302.9.2 安裝環境軟體包 312.9.3 資源庫中的代碼結構 322.9.4 模型架構 322.10 應對難度更大的強化學習挑戰 372.11 容器化強化學習實驗 392.12 實驗說酷邀剃結果 412.13 本章小結 41第3章 強化學習算法:Q學習及其變種 433.1 Q學習 433.2 時序差分(TD)學習 4...