強化學習(2020年清華大學出版社出版的圖書)

強化學習(2020年清華大學出版社出版的圖書)

本詞條是多義詞,共4個義項
更多義項 ▼ 收起列表 ▲

《強化學習》是2020年清華大學出版社出版的圖書。本書內容系統全面,覆蓋面廣,既有理論闡述、公式推導,又有豐富的典型案例,理論聯繫實際。書中全面系統地描述了強化學習的起源、背景和分類,各類強化學習算法的原理、實現方式以及各算法間的關係,為讀者構建了一個完整的強化學習知識體系。

基本介紹

  • 中文名:強化學習
  • 作者:鄒偉、鬲玲、劉昱杓
  • 出版社:清華大學出版社
  • ISBN:9787302538295
內容簡介,圖書目錄,作者簡介,

內容簡介

《強化學習》一書內容系統全面,覆蓋面廣,既有理論闡述、公式推導,又有豐富的典型案例,理論聯繫實際。書中全面系統地描述了強化學習的起源、背景和分類,各類強化學習算法的原理、實現方式以及各算法間的關係,為讀者構建了一個完整的強化學習知識體系;同時包含豐富的經典案例,如各類迷宮尋寶、飛翔小鳥、撲克牌、小車爬山、倒立擺、鐘擺、多臂賭博機、五子棋、AlphaGo、AlphaGo Zero、AlphaZero等,通過給出它們對應的詳細案例說明和代碼描述,讓讀者深度理解各類強化學習算法的精髓。《強化學習》案例生動形象,描述深入淺出,代碼簡潔易懂,注釋詳細。 《強化學習》可作為高等院校計算機、自動化及相關專業的本科生或研究生教材,也可供對強化學習感興趣的研究人員和工程技術人員閱讀參考。

圖書目錄

目錄
第1章強化學習概述
1.1強化學習的背景
1.2強化學習初探
1.2.1智慧型體和環境
1.2.2智慧型體主要組成
1.2.3強化學習、監督學習、非監督學習
1.2.4強化學習分類
1.2.5研究方法
1.2.6發展歷程
1.3強化學習的重點概念
1.3.1學習與規劃
1.3.2探索與利用
1.3.3預測與控制
1.4小結
1.5習題
第2章馬爾可夫決策過程
2.1馬爾可夫基本概念
2.1.1馬爾可夫性
2.1.2馬爾可夫過程
2.1.3馬爾可夫決策過程
2.2貝爾曼方程
2.2.1貝爾曼期望方程
2.2.2貝爾曼方程
2.3策略
2.3.1策略定義
2.3.2求解策略
2.4小結
2.5習題
第3章動態規劃
3.1動態規劃簡介
3.2策略評估
3.3策略改進
3.4策略疊代
3.5值疊代
3.6實例講解
3.6.1“找寶藏”環境描述
3.6.2策略疊代
3.6.3值疊代
3.6.4實例小結
3.7小結
3.8習題
第4章蒙特卡羅
4.1蒙特卡羅簡介
4.2蒙特卡羅評估
4.3蒙特卡羅控制
4.4線上策略蒙特卡羅
4.5離線策略蒙特卡羅
4.5.1重要性採樣離線策略蒙特卡羅
4.5.2加權重要性採樣離線策略蒙特卡羅
4.6實例講解
4.6.1“十點半”遊戲
4.6.2線上策略蒙特卡羅
4.6.3離線策略蒙特卡羅
4.6.4實例小結
4.7小結
4.8習題
第5章時序差分
5.1時序差分簡介
5.2三種方法的性質對比
5.3Sarsa: 線上策略TD
5.4Qlearning: 離線策略TD方法
5.5實例講解
5.5.1迷宮尋寶
5.5.2Sarsa方法
5.5.3Qlearning方法
5.5.4實例小結
5.6小結
5.7習題
第6章資格跡
6.1資格跡簡介
6.2多步TD評估
6.3前向算法
6.4後向算法
6.5前向算法與後向算法的統一
6.6Sarsa(λ)方法
6.6.1前向Sarsa(λ)方法
6.6.2後向Sarsa(λ)方法
6.7Q (λ)方法
6.7.1前向Watkinss Q(λ)方法
6.7.2後向Watkinss Q(λ)方法
*6.7.3Pengs Q(λ)方法
6.8實例講解
6.8.1風格子世界
6.8.2後向Sarsa(λ)
6.8.3後向Q(λ)
6.8.4實例小結
6.9小結
6.10習題
第7章值函式逼近
7.1值函式逼近簡介
7.2線性逼近
7.2.1增量法
7.2.2批量法
7.3非線性逼近
7.3.1DQN方法
7.3.2Double DQN方法
7.3.3Dueling DQN方法
7.4實例講解
7.4.1遊戲簡介
7.4.2環境描述
7.4.3算法詳情
7.4.4核心代碼
7.5小結
7.6習題
第8章隨機策略梯度
8.1隨機策略梯度簡介
8.1.1策略梯度優缺點
8.1.2策略梯度方法分類
8.2隨機策略梯度定理及證明
8.2.1隨機策略梯度定理
*8.2.2隨機策略梯度定理證明
8.3蒙特卡羅策略梯度
8.3.1REINFORCE方法
8.3.2帶基線的REINFORCE方法
8.4TRPO方法
8.5實例講解
8.5.1遊戲簡介及環境描述
8.5.2算法詳情
8.5.3核心代碼
8.6小結
8.7習題
第9章ActorCritic及變種
9.1AC方法
9.1.1線上策略AC方法
9.1.2離線策略AC方法
9.1.3兼容性近似函式定理
9.2A2C方法
9.3A3C方法
9.3.1簡介
9.3.2異步Qlearning方法
9.3.3異步Sarsa方法
9.3.4異步n步Qlearning方法
9.3.5A3C方法詳述
9.4實例講解
9.4.1AC實例
9.4.2A3C實例
9.5小結
9.6習題
第10章確定性策略梯度
10.1確定性策略梯度及證明
10.1.1確定性策略梯度定理
*10.1.2確定性策略梯度定理證明
10.2DPG方法
10.2.1線上策略確定性AC方法
10.2.2離線策略確定性AC
10.2.3兼容性近似函式定理
10.3DDPG方法
10.3.1DDPG簡介
10.3.2算法要點
10.3.3算法流程
10.4實例講解
10.4.1遊戲簡介及環境描述
10.4.2算法詳情
10.4.3核心代碼
10.5小結
10.6習題
第11章學習與規劃
11.1有模型方法和無模型方法
11.2模型擬合
11.2.1模型數學表示
11.2.2監督式學習構建模型
11.2.3利用模型進行規劃
11.3Dyna框架及相關算法
11.3.1DynaQ
11.3.2DynaQ
11.3.3優先權掃描的DynaQ
11.4Dyna2
11.5實例講解
11.5.1遊戲簡介及環境描述
11.5.2算法詳情
11.5.3核心代碼
11.6小結
11.7習題
第12章探索與利用
12.1探索利用困境
12.2多臂賭博機問題
12.3樸素探索
12.4樂觀初始值估計
12.5置信區間上界
12.6機率匹配
12.7信息價值
12.8實例講解
12.8.1遊戲簡介及環境描述
12.8.2算法詳情
12.8.3核心代碼
12.9小結
12.10習題
第13章博弈強化學習
13.1博弈及博弈樹
13.2極大極小搜尋
13.3AlphaBeta搜尋
13.4蒙特卡羅樹搜尋
13.5AlphaGo
13.5.1監督學習策略網路pσ
13.5.2快速走子策略網路pπ
13.5.3強化學習策略網路pρ
13.5.4價值網路vθ
13.5.5蒙特卡羅樹搜尋
13.5.6總結
13.6AlphaGo Zero
13.6.1下棋原理
13.6.2網路結構
13.6.3蒙特卡羅樹搜尋
13.6.4總結
13.7AlphaZero
13.8實例講解
13.8.1遊戲簡介及環境描述
13.8.2算法流程描述
13.8.3算法細節
13.8.4核心代碼
13.9小結
13.10習題
參考文獻

作者簡介

鄒偉,博士,睿客邦創始人,研究方向為機器學習、數據挖掘、計算幾何,致力於機器學習和深度學習在實際中的套用;主持研發50多個人工智慧領域工業級項目,並受邀在中國移動、花旗銀行、中信集團、中航信、烽火科技、方、完美世界等公司進行了上百場講座和內部培訓。創立的睿客邦與國內十多所高校建立了AI聯合實驗室或實訓基地;兼任天津大學創業導師、山東交通學院客座教授等。曾在多個線上平台講授“機器學習”“深度學習”等課程,廣受網友好評,累計學習人數超過百萬。
鬲玲,碩士,北京神舟航天軟體公司知識工程團隊負責人,資深研發工程師。研究方向為知識工程、語義檢索、強化學習、自然語言處理。作為牽頭單位技術負責人參與並完成國家科技支撐計畫項目1項,863計畫項目1項。有多年知識管理系統以及自然語言處理項目研發經驗,目前正致力於垂直領域知識圖譜的落地以及強化學習在自然語言處理領域的套用。
劉昱杓,現供職於央視市場研究,深度學習、強化學習研發工程師,研究方向為計算機視覺。有多年深度學習視覺方向開發經驗,參與了多個圖像識別、目標檢測、目標追蹤等領域的落地項目。目前專注於深度強化學習方向的研究。

相關詞條

熱門詞條

聯絡我們