深度強化學習:基於Python的理論及實踐(圖書)

深度強化學習:基於Python的理論及實踐(圖書)

本詞條是多義詞,共2個義項
更多義項 ▼ 收起列表 ▲

《深度強化學習:基於Python的理論及實踐》是2020年12月1日機械工業出版社出版的圖書,作者是勞拉·格雷澤、[Laura、Graesser]、華龍·肯、(Wah...)。

基本介紹

  • 中文名:深度強化學習:基於Python的理論及實踐
  • 作者:勞拉·格雷澤、[Laura、Graesser]、華龍·肯、(Wah...
  • 出版社:機械工業出版社
  • ISBN:9787111670407
內容簡介,圖書目錄,

內容簡介

這本書是針對計算機科學專業大學生和軟體工程師的。本課程旨在介紹深度強化學習,無需事先了解相關主題。但是,我們假設讀者對機器學習和深度學習有基本的了解,並且對Python編程有中級的了解。一些使用PyTorch的經驗也是有用的,但不是必需的。

圖書目錄

第1章 強化學習簡介 11.1 強化學習 11.2 強化學習中的MDP 61.3 強化學習中的學習函式 91.4 深度強化學習算法 111.4.1 基於策略的算法 121.4.2 基於值的算法 131.4.3 基於模型的算法 131.4.4 組合方法 151.4.5 本書中的算法 151.4.6 同策略和異策略算法 161.4.7 小結 161.5 強化學習中的深度學習 171.6 強化學習與監督學習 191.6.1 缺乏先知 191.6.2 反饋稀疏性 201.6.3 數據生成 201.7 總結 21第一部分 基於策略的算法和基於值的算法第2章 REINFORCE 252.1 策略 262.2 目標函式 262.3 策略梯度 272.3.1 策略梯度推導 282.4 蒙特卡羅採樣 302.5 REINFORCE算法 312.5.1 改進的REINFORCE算法 322.6 實現REINFORCE 332.6.1 一種最小化REINFORCE的實現 332.6.2 用PyTorch構建策略 362.6.3 採樣動作 382.6.4 計算策略損失 392.6.5 REINFORCE訓練循環 402.6.6 同策略記憶體回放 412.7 訓練REINFORCE智慧型體 442.8 實驗結果 472.8.1 實驗:評估折扣因子的影響 472.8.2 實驗:評估基準線的影響 492.9 總結 512.10 擴展閱讀 512.11 歷史回顧 51第3章 SARSA 533.1 Q函式和V函式 543.2 時序差分學習 563.2.1 時序差分學習示例 593.3 SARSA中的動作選擇 653.3.1 探索和利用 663.4 SARSA算法 673.4.1 同策略算法 683.5 實現SARSA 693.5.1 動作函式:ε-貪婪 693.5.2 計算Q損失 703.5.3 SARSA訓練循環 713.5.4 同策略批處理記憶體回放 723.6 訓練SARSA智慧型體 743.7 實驗結果 763.7.1 實驗:評估學習率的影響 773.8 總結 783.9 擴展閱讀 793.10 歷史回顧 79第4章 深度Q網路 814.1 學習DQN中的Q函式 824.2 DQN中的動作選擇 834.2.1 Boltzmann策略 864.3 經驗回放 884.4 DQN算法 894.5 實現DQN 914.5.1 計算Q損失 914.5.2 DQN訓練循環 924.5.3 記憶體回放 934.6 訓練DQN智慧型體 964.7 實驗結果 994.7.1 實驗:評估網路架構的影響 994.8 總結 1014.9 擴展閱讀 1024.10 歷史回顧 102第5章 改進的深度Q網路 1035.1 目標網路 1045.2 雙重DQN 1065.3 優先權經驗回放 1095.3.1 重要性抽樣 1115.4 實現改進的DQN 1125.4.1 網路初始化 1135.4.2 計算Q損失 1135.4.3 更新目標網路 1155.4.4 包含目標網路的DQN 1165.4.5 雙重DQN 1165.4.6 優先權經驗回放 1175.5 訓練DQN智慧型體玩Atari遊戲 1235.6 實驗結果 1285.6.1 實驗:評估雙重DQN與PER的影響 1285.7 總結 1325.8 擴展閱讀 132第二部分 組合方法第6章 優勢演員–評論家算法 1356.1 演員 1366.2 評論家 1366.2.1 優勢函式 1366.2.2 學習優勢函式 1406.3 A2C算法 1416.4 實現A2C 1436.4.1 優勢估計 1446.4.2 計算價值損失和策略損失 1476.4.3 演員–評論家訓練循環 1476.5 網路架構 1486.6 訓練A2C智慧型體 1506.6.1 在Pong上使用n步回報的A2C算法 1506.6.2 在Pong上使用GAE的A2C算法 1536.6.3 在BipedalWalker上使用n步回報的A2C算法 1556.7 實驗結果 1576.7.1 實驗:評估n步回報的影響 1586.7.2 實驗:評估GAE中的影響 1596.8 總結 1616.9 擴展閱讀 1626.10 歷史回顧 162第7章 近端策略最佳化算法 1657.1 替代目標函式 1657.1.1 性能突然下降 1667.1.2 修改目標函式 1687.2 近端策略最佳化 1747.3 PPO算法 1777.4 實現PPO 1797.4.1 計算PPO的策略損失 1797.4.2 PPO訓練循環 1807.5 訓練PPO智慧型體 1827.5.1 在Pong上使用PPO算法 1827.5.2 在BipedalWalker上使用PPO算法 1857.6 實驗結果 1887.6.1 實驗:評估GAE中的影響 1887.6.2 實驗:評估裁剪變數的影響 1907.7 總結 1927.8 擴展閱讀 192第8章 並行方法 1958.1 同步並行 1968.2 異步並行 1978.2.1 Hogwild!算法 1988.3 訓練A3C智慧型體 2008.4 總結 2038.5 擴展閱讀 204第9章 算法總結 205第三部分 實踐細節第10章 深度強化學習工程實踐 20910.1 軟體工程實踐 20910.1.1 單元測試 21010.1.2 代碼質量 21510.1.3 Git工作流 21610.2 調試技巧 21810.2.1 生命跡象 21910.2.2 策略梯度診斷 21910.2.3 數據診斷 22010.2.4 預處理器 22210.2.5 記憶體 22210.2.6 算法函式 2

相關詞條

熱門詞條

聯絡我們