深度強化學習實踐

深度強化學習實踐

《深度強化學習實踐》是2021年機械工業出版社出版的圖書。

基本介紹

  • 中文名:深度強化學習實踐
  • 作者:(俄)馬克西姆·拉潘
  • 出版時間:2021年
  • 出版社:機械工業出版社
  • ISBN:9787111687382
內容簡介,圖書目錄,作者簡介,

內容簡介

本書理論與實踐相結合,系統闡述強化學習的基礎知識,以及如何動手編寫智慧型體以執行一系列實際任務。通過閱讀本書,讀者將獲得深層Q網路、策略梯度方法、連續控制問題以及高度可擴展的非梯度方法等主題領域的可行洞見,還將學會如何構建一個經過強化學習訓練、價格低廉的真實硬體機器人,並通過一步步代碼最佳化在短短30分鐘的訓練後解決Pong環境。此外,本書還專門介紹了強化學習的新發展,包括離散最佳化(解決魔方問題)、多智慧型體方法、Microsoft的TextWorld環境、高級探索技術等。

圖書目錄

譯者序
前言
作者簡介
審校者簡介
第1章 什麼是強化學習
1.1 機器學習分類
1.1.1 監督學習
1.1.2 非監督學習
1.1.3 強化學習
1.2 強化學習的複雜性
1.3 強化學習的形式
1.3.1 獎勵
1.3.2 智慧型體
1.3.3 環境
1.3.4 動作
1.3.5 觀察
1.4 強化學習的理論基礎
1.4.1 馬爾可夫決策過程
1.4.2 策略
1.5 總結
第2章 OpenAIGym
2.1 剖析智慧型體
2.2 硬體和軟體要求
2.3 0penAIGymAPI
2.3.1 動作空間
2.3.2 觀察空間
2.3.3 環境
2.3.4 創建環境
2.3.5 車擺系統
2.4 隨機CartPole智慧型體
2.5 Gym的額外功能:包裝器和監控器
2.5.1 包裝器
2.5.2 監控器
2.6 總結
第3章 使用PyTorch進行深度學習
3.1 張量
3.1.1 創建張量
3.1.2 零維張量
3.1.3 張量操作
3.1.4 GPU張量
3.2 梯度
3.3 NN構建塊
3.4 自定義層
3.5 最終黏合劑:損失函式和最佳化器
3.5.1 損失函式
3.5.2 最佳化器
3.6 使用TensorBoard進行監控
3.6.1 TensorBOard101
3.6.2 繪圖
3.7 示例:將GAN套用於Atari圖像
3.8 PyTorchlgnite
3.9 總結
第4章 交叉熵方法
4.1 RL方法的分類
4.2 交叉熵方法的實踐
4.3 交叉熵方法在CartPole中的套用
4.4 交叉熵方法在FrozenLake中的套用
4.5 交叉熵方法的理論背景
4.6 總結
第5章 表格學習和Bellman方程
5.1 價值、狀態和最優性
5.2 最佳Bellman方程
5.3 動作的價值
5.4 價值疊代法
5.5 價值疊代實踐
5.6 Q-Iearning在FrozenLake中的套用
5.7 總結
第6章 深度Q.network
6.1 現實的價值疊代
6.2 表格Q-Iearning
6.3 深度Q-learning
6.3.1 與環境互動
6.3.2 SGD最佳化
6.3.3 步驟之間的相關性
6.3.4 馬爾可夫性質
6.3.5 DQN訓練的最終形式
6.4 DQN套用於Pong遊戲
6.4.1 包裝器
6.4.2 DQN模型
6.4.3 訓練
6.4.4 運行和性能
6.4.5 模型實戰
6.5 可以嘗試的事情
6.6 總結
第7章 高級強化學習庫
7.1 為什麼使用強化學習庫
7.2 PTAN庫
7.2.1 動作選擇器
7.2.2 智慧型體
7.2.3 經驗源
7.2.4 經驗回放緩衝區
7.2.5 TargetNet類
7.2.6 Ignite幫助類
7.3 PTAN版本的CartPole解決方案
7.4 其他強化學習庫
7.5 總結
第8章 DQN擴展
8.1 基礎DQN
8.1.1 通用庫
8.1.2 實現
8.1.3 結果
8.2 N步DQN
……
第9章 加速強化學習訓練的方法
第10章 使用強化學習進行股票交易
第11章 策略梯度:一種替代方法
第12章 actor-critic方法
第13章 A3C
第14章 使用強化學習訓練聊天機器人
第15章 TextWorld環境
第16章 Web導航
第17章 連續動作空間
第18章 機器人技術中的強化學習
第19章 置信域:PPO、TRPO、ACKTR及SAC
第20章 強化學習中的黑盒最佳化

作者簡介

  馬克西姆·拉潘(Maxim Lapan),一位深度學習愛好者和獨立研究者。他擁有15年軟體開發和系統架構經驗,涵蓋從低級Linux核心驅動程式開發到性能最佳化以及在數千台伺服器上工作的分散式應用程式設計的方方面面。他在大數據、機器學習以及大型並行分散式HPC和非HPC系統方面擁有豐富的工作經驗,他能夠使用簡單的辭彙和生動的示例來解釋複雜的事物。他當前感興趣的領域包括深度學習的實際套用,例如,深度自然語言處理和深度強化學習。
  林然,在2016年加入Thoughtworks之後,主要擔任全棧軟體開發工程師、TechLead、算法工程師等。在技術領域,他特別擅長全棧軟體開發、端到端交付、面向對象設計、測試驅動開發、持續交付、領域驅動設計(DDD),熟悉整潔架構、微服務、DevOps、Scrum、Kanban、深度強化學習、Hadoop生態等技術和方法論。當前他在精進以重構、測試驅動開發和持續交付為核心的軟體工程能力的基礎上,正深耕於以領域驅動設計為代表的數位化架構能力、數據中台的架構能力以及以深度強化學習為代表的機器學習解決方案。同時,他曾參與翻譯《Python機器學習手冊》。 
  王薇,北京郵電大學碩士,現任Thoughtworks數據分析師。有金融、通信、醫療、娛樂等不同行業的數據類項目經驗,精通多種數據挖掘算法,擅長將算法與業務相結合進行數據挖掘和分析。

相關詞條

熱門詞條

聯絡我們