深度強化學習：原理、算法與PyTorch實戰

內容簡介

本書基於PyTorch框架，用通俗易懂的語言深入淺出地介紹了強化學習的基本原理，包括傳統的強化學習基本方法和目前流行的深度強化學習方法。在對強化學習任務建模的基礎上，首先介紹動態規劃法、蒙特卡洛法、時序差分法等表格式強化學習方法，然後介紹在PyTorch框架下，DQN、DDPG、A3C等基於深度神經網路的大規模強化學習方法。全書以一個掃地機器人任務貫穿始終，並給出具有代表性的實例，增加對每個算法的理解。全書配有PPT和視頻講解，對相關算法和實例配有代碼程式。全書共分三部分：和第二部分（第1～8章）為表格式強化學習部分，著重介紹深度強化學習概述、環境的配置、數學建模、動態規劃法、蒙特卡洛法、時序差分法、n步時序差分法、規劃和蒙特卡洛樹搜尋；第三部分（第9～14章）為深度強化學習部分，著重介紹深度學習、PyTorch與神經網路、深度Q網路、策略梯度、基於確定性策略梯度的深度強化學習、AC框架的拓展。全書提供了大量的套用實例，每章章末均附有習題。本書既適合作為高等院校計算機、軟體工程、電子工程等相關專業高年級本科生、研究生的教材，又可為人工智慧、機器學習等領域從事項目開發、科學研究的人員提供參考。

圖書目錄

隨書資源

部分：預備知識及環境安裝

第1章深度強化學習概述

1.1引言

1.2深度學習

1.3強化學習

1.4深度強化學習

1.5小結

1.6習題

第2章環境的配置

2.1PyTorch簡介

2.2PyTorch和TensorFlow

2.3強化學習的開發環境

2.3.1Anaconda環境搭建

2.3.2Anaconda環境管理

2.3.3PyTorch的安裝

2.3.4Jupyter Notebook的安裝

2.3.5Jupyter Notebook的使用

2.3.6Gym的安裝

2.3.7Gym案例

2.4小結

2.5習題

第二部分：表格式強化學習

第3章數學建模

3.1馬爾可夫決策過程

3.2基於模型與無模型

3.3求解強化學習任務

3.3.1策略

3.3.2獎賞與回報

3.3.3值函式與貝爾曼方程

3.3.4策略與值函式

3.4探索與利用

3.5小結

3.6習題

第4章動態規劃法

4.1策略疊代

4.1.1策略評估

4.1.2策略疊代

深度強化學習：原理、算法與PyTorch實戰

基本介紹

內容簡介

圖書目錄

作者簡介

相關詞條

熱門詞條