Python深度強化學習——使用PyTorch, TensorFlow 和OpenAI

《Python深度強化學習——使用PyTorch, TensorFlow 和OpenAI》是清華大學出版社於2022年出版的書籍,作者是[印]尼米什·桑吉(Nimish Sanghi)。

基本介紹

  • 書名:Python深度強化學習——使用PyTorch, TensorFlow 和OpenAI
  • 作者:[印]尼米什·桑吉(Nimish Sanghi)
  • 譯者:羅俊海
  • 出版社:清華大學出版社
  • 出版時間:2022年10月1日
  • 定價:69 元
  • ISBN:9787302607724
內容簡介,目錄,

內容簡介

本書重點突出深度強化學習理論的基本概念、前沿基礎理論和Python套用實現。首先介紹馬爾可夫決策、基於模型的算法、無模型方法、動態規劃、蒙特卡洛和函式逼近等基礎知識;然後詳細闡述強化學習、深度強化學習、多智慧型體強化學習等算法,及其Python套用實現。本書既闡述獎勵、價值函式、模型和策略等重要概念和基礎知識,又介紹深度強化學習理論的前沿研究和熱點方向。

目錄

第1章強化學習導論
1.1強化學習概述
1.2機器學習分類
1.2.1監督學習
1.2.2無監督學習
1.2.3強化學習
1.2.4核心元素
1.3基於強化學習的深度學習
1.4實例和案例研究
1.4.1自動駕駛汽車
1.4.2機器人
1.4.3推薦系統
1.4.4金融和貿易
1.4.5醫療保健
1.4.6遊戲
1.5庫與環境設定
1.6總結
第2章馬爾可夫決策
2.1強化學習的定義
2.2智慧型體和環境
2.3獎勵
2.4馬爾可夫過程
2.4.1馬爾可夫鏈
2.4.2馬爾可夫獎勵
過程
2.4.3馬爾可夫決策
過程
2.5策略和價值函式
2.6貝爾曼方程
2.6.1貝爾曼最優方程
2.6.2解決方法類型的
思維導圖
2.7總結
第3章基於模型的算法
3.1OpenAI Gym
3.2動態規劃
3.3策略評估/預測
3.4策略改進和疊代
3.5價值疊代
3.6廣義策略疊代
3.7異步回溯
3.8總結
第4章無模型方法
4.1蒙特卡洛估計/預測
4.2蒙特卡洛控制
4.3離線策略MC控制
4.4TD學習方法
4.5TD控制
4.6線上策略SARSA
4.7Q學習: 離線策略
TD控制
4.8最大偏差和雙重學習
4.9期望SARSA控制
4.10回放池和...

相關詞條

熱門詞條

聯絡我們