強化學習（第2版）

強化學習（第2版）

《強化學習（第2版）》是2019年9月電子工業出版社出版的圖書，作者是俞凱。

基本介紹

中文名：強化學習（第2版）
作者：俞凱
譯者：俞凱
出版時間：2019年9月
出版社：電子工業出版社
頁數：548 頁
ISBN：9787121295164
類別：電子工業
原作品：Reinforcement Learning: An Introduction Second edition
定價：168 元
開本：16 開
裝幀：平裝
出品方：博文視點

內容簡介,目錄,

內容簡介

《強化學習（第2版）》作為強化學習思想的深度解剖之作，被業內公認為是一本強化學習基礎理論的經典著作。它從強化學習的基本思想出發，深入淺出又嚴謹細緻地介紹了馬爾可夫決策過程、蒙特卡洛方法、時序差分方法、同軌離軌策略等強化學習的基本概念和方法，並以大量的實例幫助讀者理解強化學習的問題建模過程以及核心的算法細節。《強化學習（第2版）》適合所有對強化學習感興趣的讀者閱讀、收藏。

目錄

第1 章導論· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 1

1.1 強化學習· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 1

1.2 示例· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 4

1.3 強化學習要素· · · · · · · · · · · · · · · · · · · · · · · · · · · · 5

1.4 局限性與適用範圍· · · · · · · · · · · · · · · · · · · · · · · · · · 7

1.5 擴展實例：井字棋· · · · · · · · · · · · · · · · · · · · · · · · · · 8

1.6 本章小結· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 12

1.7 強化學習的早期歷史· · · · · · · · · · · · · · · · · · · · · · · · · 13

第I 部分表格型求解方法· · · · · · · · · · · · · · · · · · · · · · · · · · · 23

第2 章多臂賭博機· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 25

2.1 一個k 臂賭博機問題· · · · · · · · · · · · · · · · · · · · · · · · 25

2.2 動作-價值方法· · · · · · · · · · · · · · · · · · · · · · · · · · · · 27

2.3 10 臂測試平台· · · · · · · · · · · · · · · · · · · · · · · · · · · · 28

2.4 增量式實現· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 30

2.5 跟蹤一個非平穩問題· · · · · · · · · · · · · · · · · · · · · · · · · 32

2.6 樂觀初始值· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 34

2.7 基於置信度上界的動作選擇· · · · · · · · · · · · · · · · · · · · · 35

2.8 梯度賭博機算法· · · · · · · · · · · · · · · · · · · · · · · · · · · 37

2.9 關聯搜尋(上下文相關的賭博機) · · · · · · · · · · · · · · · · · · 40

2.10 本章小結· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 41

強化學習(第2 版)

第3 章有限馬爾可夫決策過程· · · · · · · · · · · · · · · · · · · · · · · · 45

3.1 “智慧型體-環境”互動接口· · · · · · · · · · · · · · · · · · · · · · 45

3.2 目標和收益· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 51

3.3 回報和分幕· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 52

3.4 分幕式和持續性任務的統一表示法· · · · · · · · · · · · · · · · · 54

3.5 策略和價值函式· · · · · · · · · · · · · · · · · · · · · · · · · · · 55

3.6 最優策略和最優價值函式· · · · · · · · · · · · · · · · · · · · · · 60

3.7 最優性和近似算法· · · · · · · · · · · · · · · · · · · · · · · · · · 65

3.8 本章小結· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 66

第4 章動態規劃· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 71

4.1 策略評估(預測) · · · · · · · · · · · · · · · · · · · · · · · · · · 72

4.2 策略改進· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 75

4.3 策略疊代· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 78

4.4 價值疊代· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 80

4.5 異步動態規劃· · · · · · · · · · · · · · · · · · · · · · · · · · · · 83

4.6 廣義策略疊代· · · · · · · · · · · · · · · · · · · · · · · · · · · · 84

4.7 動態規劃的效率· · · · · · · · · · · · · · · · · · · · · · · · · · · 85

4.8 本章小結· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 86

第5 章蒙特卡洛方法· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 89

5.1 蒙特卡洛預測· · · · · · · · · · · · · · · · · · · · · · · · · · · · 90

5.2 動作價值的蒙特卡洛估計· · · · · · · · · · · · · · · · · · · · · · 94

5.3 蒙特卡洛控制· · · · · · · · · · · · · · · · · · · · · · · · · · · · 95

5.4 沒有試探性出發假設的蒙特卡洛控制· · · · · · · · · · · · · · · · 98

5.5 基於重要度採樣的離軌策略· · · · · · · · · · · · · · · · · · · · · 101

5.6 增量式實現· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 107

5.7 離軌策略蒙特卡洛控制· · · · · · · · · · · · · · · · · · · · · · · 108

5.8 ? 折扣敏感的重要度採樣· · · · · · · · · · · · · · · · · · · · · · 110

5.9 ? 每次決策型重要度採樣· · · · · · · · · · · · · · · · · · · · · · 112

5.10 本章小結· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 113

第6 章時序差分學習· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 117

6.1 時序差分預測· · · · · · · · · · · · · · · · · · · · · · · · · · · · 117

6.2 時序差分預測方法的優勢· · · · · · · · · · · · · · · · · · · · · · 122

6.3 TD(0) 的最優性· · · · · · · · · · · · · · · · · · · · · · · · · · · 124

6.4 Sarsa：同軌策略下的時序差分控制· · · · · · · · · · · · · · · · · 127

6.5 Q 學習：離軌策略下的時序差分控制· · · · · · · · · · · · · · · · 129

6.6 期望Sarsa · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 131

6.7 最大化偏差與雙學習· · · · · · · · · · · · · · · · · · · · · · · · · 133

6.8 遊戲、後位狀態和其他特殊例子· · · · · · · · · · · · · · · · · · · 135

6.9 本章小結· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 136

第7 章n 步自舉法· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 139

7.1 n 步時序差分預測· · · · · · · · · · · · · · · · · · · · · · · · · · 140

7.2 n 步Sarsa · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 144

7.3 n 步離軌策略學習· · · · · · · · · · · · · · · · · · · · · · · · · · 146

7.4 ? 帶控制變數的每次決策型方法· · · · · · · · · · · · · · · · · · · 148

7.5 不需要使用重要度採樣的離軌策略學習方法：n 步樹回溯算法· · · 150

7.6 ? 一個統一的算法：n 步Q()· · · · · · · · · · · · · · · · · · · · 153

7.7 本章小結· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 155

第8 章基於表格型方法的規劃和學習· · · · · · · · · · · · · · · · · · · 157

8.1 模型和規劃· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 157

8.2 Dyna：集成在一起的規劃、動作和學習· · · · · · · · · · · · · · · 159

8.3 當模型錯誤的時候· · · · · · · · · · · · · · · · · · · · · · · · · · 164

8.4 優先遍歷· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 166

8.5 期望更新與採樣更新的對比· · · · · · · · · · · · · · · · · · · · · 170

8.6 軌跡採樣· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 173

強化學習(第2 版)8.7 實時動態規劃· · · · · · · · · · · · · · · · · · · · · · · · · · · · 176

8.8 決策時規劃· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 179

8.9 啟發式搜尋· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 180

8.10 預演算法· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 182

8.11 蒙特卡洛樹搜尋· · · · · · · · · · · · · · · · · · · · · · · · · · 184

8.12 本章小結· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 187

8.13 第I 部分總結· · · · · · · · · · · · · · · · · · · · · · · · · · · 188

第II 部分表格型近似求解方法· · · · · · · · · · · · · · · · · · · · · · · · 193

第9 章基於函式逼近的同軌策略預測· · · · · · · · · · · · · · · · · · · 195

9.1 價值函式逼近· · · · · · · · · · · · · · · · · · · · · · · · · · · · 195

9.2 預測目標(VE ) · · · · · · · · · · · · · · · · · · · · · · · · · · · 196

9.3 隨機梯度和半梯度方法· · · · · · · · · · · · · · · · · · · · · · · 198

9.4 線性方法· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 202

9.5 線性方法的特徵構造· · · · · · · · · · · · · · · · · · · · · · · · · 207

9.5.1 多項式基· · · · · · · · · · · · · · · · · · · · · · · · · · · 208

9.5.2 傅立葉基· · · · · · · · · · · · · · · · · · · · · · · · · · · 209

9.5.3 粗編碼· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 212

9.5.4 瓦片編碼· · · · · · · · · · · · · · · · · · · · · · · · · · · 214

9.5.5 徑向基函式· · · · · · · · · · · · · · · · · · · · · · · · · · 218

9.6 手動選擇步長參數· · · · · · · · · · · · · · · · · · · · · · · · · · 219

9.7 非線性函式逼近：人工神經網路· · · · · · · · · · · · · · · · · · · 220

9.8 最小二乘時序差分· · · · · · · · · · · · · · · · · · · · · · · · · · 225

9.9 基於記憶的函式逼近· · · · · · · · · · · · · · · · · · · · · · · · · 227

9.10 基於核函式的函式逼近· · · · · · · · · · · · · · · · · · · · · · · 229

9.11 深入了解同軌策略學習：“興趣”與“強調” · · · · · · · · · · · · 230

9.12 本章小結· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 232

iv

第10 章基於函式逼近的同軌策略控制· · · · · · · · · · · · · · · · · · · 239

10.1 分幕式半梯度控制· · · · · · · · · · · · · · · · · · · · · · · · 239

10.2 半梯度n 步Sarsa· · · · · · · · · · · · · · · · · · · · · · · · · 242

10.3 平均收益：持續性任務中的新的問題設定· · · · · · · · · · · · · 245

10.4 棄用折扣· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 249

10.5 差分半梯度n 步Sarsa · · · · · · · · · · · · · · · · · · · · · · 251

10.6 本章小結· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 252

第11 章基於函式逼近的離軌策略方法· · · · · · · · · · · · · · · · · · 253

11.1 半梯度方法· · · · · · · · · · · · · · · · · · · · · · · · · · · · 254

11.2 離軌策略發散的例子· · · · · · · · · · · · · · · · · · · · · · · 256

11.3 致命三要素· · · · · · · · · · · · · · · · · · · · · · · · · · · · 260

11.4 線性價值函式的幾何性質· · · · · · · · · · · · · · · · · · · · · 262

11.5 對貝爾曼誤差做梯度下降· · · · · · · · · · · · · · · · · · · · · 266

11.6 貝爾曼誤差是不可學習的· · · · · · · · · · · · · · · · · · · · · 270

11.7 梯度TD 方法· · · · · · · · · · · · · · · · · · · · · · · · · · · 274

11.8 強調TD 方法· · · · · · · · · · · · · · · · · · · · · · · · · · · 278

11.9 減小方差· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 279

11.10 本章小結· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 280

第12 章資格跡· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 283

12.1 -回報· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 284

12.2 TD()· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 287

12.3 n-步截斷- 回報方法· · · · · · · · · · · · · · · · · · · · · · · 291

12.4 重做更新：線上-回報算法· · · · · · · · · · · · · · · · · · · 292

12.5 真實的線上TD() · · · · · · · · · · · · · · · · · · · · · · · · 294

12.6 ? 蒙特卡洛學習中的荷蘭跡· · · · · · · · · · · · · · · · · · · · 296

12.7 Sarsa()· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 298

12.8 變數和

· · · · · · · · · · · · · · · · · · · · · · · · · · · · 303

v

強化學習(第2 版)

12.9 帶有控制變數的離軌策略資格跡· · · · · · · · · · · · · · · · · 304

12.10 從Watkins 的Q() 到樹回溯TB() · · · · · · · · · · · · · · · 308

12.11 採用資格跡保障離軌策略方法的穩定性· · · · · · · · · · · · · · 310

12.12 實現中的問題· · · · · · · · · · · · · · · · · · · · · · · · · · · 312

12.13 本章小結· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 312

第13 章策略梯度方法· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 317

13.1 策略近似及其優勢· · · · · · · · · · · · · · · · · · · · · · · · 318

13.2 策略梯度定理· · · · · · · · · · · · · · · · · · · · · · · · · · · 320

13.3 REINFORCE：蒙特卡洛策略梯度· · · · · · · · · · · · · · · · 322

13.4 帶有基線的REINFORCE · · · · · · · · · · · · · · · · · · · · 325

13.5 “行動器-評判器”方法· · · · · · · · · · · · · · · · · · · · · · 327

13.6 持續性問題的策略梯度· · · · · · · · · · · · · · · · · · · · · · 329

13.7 針對連續動作的策略參數化方法· · · · · · · · · · · · · · · · · 332

13.8 本章小結· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 333

第III 部分表格型深入研究· · · · · · · · · · · · · · · · · · · · · · · · · · 337

第14 章心理學· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 339

14.1 預測與控制· · · · · · · · · · · · · · · · · · · · · · · · · · · · 340

14.2 經典條件反射· · · · · · · · · · · · · · · · · · · · · · · · · · · 341

14.2.1 阻塞與高級條件反射· · · · · · · · · · · · · · · · · · · · · 342

14.2.2 Rescorla-Wagner 模型· · · · · · · · · · · · · · · · · · · · 344

14.2.3 TD 模型· · · · · · · · · · · · · · · · · · · · · · · · · · 347

14.2.4 TD 模型模擬· · · · · · · · · · · · · · · · · · · · · · · · 348

14.3 工具性條件反射· · · · · · · · · · · · · · · · · · · · · · · · · · 355

14.4 延遲強化· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 359

14.5 認知圖· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 361

14.6 習慣行為與目標導向行為· · · · · · · · · · · · · · · · · · · · · 362

14.7 本章小結· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 366

第15 章神經科學· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 373

15.1 神經科學基礎· · · · · · · · · · · · · · · · · · · · · · · · · · · 374

15.2 收益信號、強化信號、價值和預測誤差· · · · · · · · · · · · · · 375

15.3 收益預測誤差假說· · · · · · · · · · · · · · · · · · · · · · · · 377

15.4 多巴胺· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 379

15.5 收益預測誤差假說的實驗支持· · · · · · · · · · · · · · · · · · · 382

15.6 TD 誤差/多巴胺對應· · · · · · · · · · · · · · · · · · · · · · · 385

15.7 神經“行動器-評判器” · · · · · · · · · · · · · · · · · · · · · · 390

15.8 行動器與評判器學習規則· · · · · · · · · · · · · · · · · · · · · 393

15.9 享樂主義神經元· · · · · · · · · · · · · · · · · · · · · · · · · · 397

15.10 集體強化學習· · · · · · · · · · · · · · · · · · · · · · · · · · · 399

15.11 大腦中的基於模型的算法· · · · · · · · · · · · · · · · · · · · · 402

15.12 成癮· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 403

15.13 本章小結· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 404

第16 章套用及案例分析· · · · · · · · · · · · · · · · · · · · · · · · · · · 413

16.1 TD-Gammon · · · · · · · · · · · · · · · · · · · · · · · · · · · 413

16.2 Samuel 的跳棋程式· · · · · · · · · · · · · · · · · · · · · · · · 418

16.3 Watson 的每日雙倍投注· · · · · · · · · · · · · · · · · · · · · 421

16.4 最佳化記憶體控制· · · · · · · · · · · · · · · · · · · · · · · · · · · 424

16.5 人類級別的視頻遊戲· · · · · · · · · · · · · · · · · · · · · · · 428

16.6 主宰圍棋遊戲· · · · · · · · · · · · · · · · · · · · · · · · · · · 433

16.6.1 AlphaGo · · · · · · · · · · · · · · · · · · · · · · · · · · 436

16.6.2 AlphaGo Zero · · · · · · · · · · · · · · · · · · · · · · · 439

16.7 個性化網路服務· · · · · · · · · · · · · · · · · · · · · · · · · · 442

16.8 熱氣流滑翔· · · · · · · · · · · · · · · · · · · · · · · · · · · · 446

強化學習(第2 版)

第17 章前沿技術· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 451

17.1 廣義價值函式和輔助任務· · · · · · · · · · · · · · · · · · · · · 451

17.2 基於選項理論的時序摘要· · · · · · · · · · · · · · · · · · · · · 453

17.3 觀測量和狀態· · · · · · · · · · · · · · · · · · · · · · · · · · · 456

17.4 設計收益信號· · · · · · · · · · · · · · · · · · · · · · · · · · · 460

17.5 遺留問題· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 464

17.6 人工智慧的未來· · · · · · · · · · · · · · · · · · · · · · · · · · 467

參考文獻· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 473,

第1 章導論· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 1

1.1 強化學習· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 1

1.2 示例· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 4

1.3 強化學習要素· · · · · · · · · · · · · · · · · · · · · · · · · · · · 5

1.4 局限性與適用範圍· · · · · · · · · · · · · · · · · · · · · · · · · · 7

1.5 擴展實例：井字棋· · · · · · · · · · · · · · · · · · · · · · · · · · 8

1.6 本章小結· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 12

1.7 強化學習的早期歷史· · · · · · · · · · · · · · · · · · · · · · · · · 13

第I 部分表格型求解方法· · · · · · · · · · · · · · · · · · · · · · · · · · · 23

第2 章多臂賭博機· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 25

2.1 一個k 臂賭博機問題· · · · · · · · · · · · · · · · · · · · · · · · 25

2.2 動作-價值方法· · · · · · · · · · · · · · · · · · · · · · · · · · · · 27

2.3 10 臂測試平台· · · · · · · · · · · · · · · · · · · · · · · · · · · · 28

2.4 增量式實現· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 30

2.5 跟蹤一個非平穩問題· · · · · · · · · · · · · · · · · · · · · · · · · 32

2.6 樂觀初始值· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 34

2.7 基於置信度上界的動作選擇· · · · · · · · · · · · · · · · · · · · · 35

2.8 梯度賭博機算法· · · · · · · · · · · · · · · · · · · · · · · · · · · 37

2.9 關聯搜尋(上下文相關的賭博機) · · · · · · · · · · · · · · · · · · 40

2.10 本章小結· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 41

強化學習(第2 版)

第3 章有限馬爾可夫決策過程· · · · · · · · · · · · · · · · · · · · · · · · 45

3.1 “智慧型體-環境”互動接口· · · · · · · · · · · · · · · · · · · · · · 45

3.2 目標和收益· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 51

3.3 回報和分幕· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 52

3.4 分幕式和持續性任務的統一表示法· · · · · · · · · · · · · · · · · 54

3.5 策略和價值函式· · · · · · · · · · · · · · · · · · · · · · · · · · · 55

3.6 最優策略和最優價值函式· · · · · · · · · · · · · · · · · · · · · · 60

3.7 最優性和近似算法· · · · · · · · · · · · · · · · · · · · · · · · · · 65

3.8 本章小結· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 66

第4 章動態規劃· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 71

4.1 策略評估(預測) · · · · · · · · · · · · · · · · · · · · · · · · · · 72

4.2 策略改進· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 75

4.3 策略疊代· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 78

4.4 價值疊代· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 80

4.5 異步動態規劃· · · · · · · · · · · · · · · · · · · · · · · · · · · · 83

4.6 廣義策略疊代· · · · · · · · · · · · · · · · · · · · · · · · · · · · 84

4.7 動態規劃的效率· · · · · · · · · · · · · · · · · · · · · · · · · · · 85

4.8 本章小結· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 86

第5 章蒙特卡洛方法· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 89

5.1 蒙特卡洛預測· · · · · · · · · · · · · · · · · · · · · · · · · · · · 90

5.2 動作價值的蒙特卡洛估計· · · · · · · · · · · · · · · · · · · · · · 94

5.3 蒙特卡洛控制· · · · · · · · · · · · · · · · · · · · · · · · · · · · 95

5.4 沒有試探性出發假設的蒙特卡洛控制· · · · · · · · · · · · · · · · 98

5.5 基於重要度採樣的離軌策略· · · · · · · · · · · · · · · · · · · · · 101

5.6 增量式實現· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 107

5.7 離軌策略蒙特卡洛控制· · · · · · · · · · · · · · · · · · · · · · · 108

5.8 ? 折扣敏感的重要度採樣· · · · · · · · · · · · · · · · · · · · · · 110

5.9 ? 每次決策型重要度採樣· · · · · · · · · · · · · · · · · · · · · · 112

5.10 本章小結· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 113

第6 章時序差分學習· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 117

6.1 時序差分預測· · · · · · · · · · · · · · · · · · · · · · · · · · · · 117

6.2 時序差分預測方法的優勢· · · · · · · · · · · · · · · · · · · · · · 122

6.3 TD(0) 的最優性· · · · · · · · · · · · · · · · · · · · · · · · · · · 124

6.4 Sarsa：同軌策略下的時序差分控制· · · · · · · · · · · · · · · · · 127

6.5 Q 學習：離軌策略下的時序差分控制· · · · · · · · · · · · · · · · 129

6.6 期望Sarsa · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 131

6.7 最大化偏差與雙學習· · · · · · · · · · · · · · · · · · · · · · · · · 133

6.8 遊戲、後位狀態和其他特殊例子· · · · · · · · · · · · · · · · · · · 135

6.9 本章小結· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 136

第7 章n 步自舉法· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 139

7.1 n 步時序差分預測· · · · · · · · · · · · · · · · · · · · · · · · · · 140

7.2 n 步Sarsa · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 144

7.3 n 步離軌策略學習· · · · · · · · · · · · · · · · · · · · · · · · · · 146

7.4 ? 帶控制變數的每次決策型方法· · · · · · · · · · · · · · · · · · · 148

7.5 不需要使用重要度採樣的離軌策略學習方法：n 步樹回溯算法· · · 150

7.6 ? 一個統一的算法：n 步Q()· · · · · · · · · · · · · · · · · · · · 153

7.7 本章小結· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 155

第8 章基於表格型方法的規劃和學習· · · · · · · · · · · · · · · · · · · 157

8.1 模型和規劃· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 157

8.2 Dyna：集成在一起的規劃、動作和學習· · · · · · · · · · · · · · · 159

8.3 當模型錯誤的時候· · · · · · · · · · · · · · · · · · · · · · · · · · 164

8.4 優先遍歷· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 166

8.5 期望更新與採樣更新的對比· · · · · · · · · · · · · · · · · · · · · 170

8.6 軌跡採樣· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 173

強化學習(第2 版)8.7 實時動態規劃· · · · · · · · · · · · · · · · · · · · · · · · · · · · 176

8.8 決策時規劃· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 179

8.9 啟發式搜尋· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 180

8.10 預演算法· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 182

8.11 蒙特卡洛樹搜尋· · · · · · · · · · · · · · · · · · · · · · · · · · 184

8.12 本章小結· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 187

8.13 第I 部分總結· · · · · · · · · · · · · · · · · · · · · · · · · · · 188

第II 部分表格型近似求解方法· · · · · · · · · · · · · · · · · · · · · · · · 193

第9 章基於函式逼近的同軌策略預測· · · · · · · · · · · · · · · · · · · 195

9.1 價值函式逼近· · · · · · · · · · · · · · · · · · · · · · · · · · · · 195

9.2 預測目標(VE ) · · · · · · · · · · · · · · · · · · · · · · · · · · · 196

9.3 隨機梯度和半梯度方法· · · · · · · · · · · · · · · · · · · · · · · 198

9.4 線性方法· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 202

9.5 線性方法的特徵構造· · · · · · · · · · · · · · · · · · · · · · · · · 207

9.5.1 多項式基· · · · · · · · · · · · · · · · · · · · · · · · · · · 208

9.5.2 傅立葉基· · · · · · · · · · · · · · · · · · · · · · · · · · · 209

9.5.3 粗編碼· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 212

9.5.4 瓦片編碼· · · · · · · · · · · · · · · · · · · · · · · · · · · 214

9.5.5 徑向基函式· · · · · · · · · · · · · · · · · · · · · · · · · · 218

9.6 手動選擇步長參數· · · · · · · · · · · · · · · · · · · · · · · · · · 219

9.7 非線性函式逼近：人工神經網路· · · · · · · · · · · · · · · · · · · 220

9.8 最小二乘時序差分· · · · · · · · · · · · · · · · · · · · · · · · · · 225

9.9 基於記憶的函式逼近· · · · · · · · · · · · · · · · · · · · · · · · · 227

9.10 基於核函式的函式逼近· · · · · · · · · · · · · · · · · · · · · · · 229

9.11 深入了解同軌策略學習：“興趣”與“強調” · · · · · · · · · · · · 230

9.12 本章小結· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 232

iv

第10 章基於函式逼近的同軌策略控制· · · · · · · · · · · · · · · · · · · 239

10.1 分幕式半梯度控制· · · · · · · · · · · · · · · · · · · · · · · · 239

10.2 半梯度n 步Sarsa· · · · · · · · · · · · · · · · · · · · · · · · · 242

10.3 平均收益：持續性任務中的新的問題設定· · · · · · · · · · · · · 245

10.4 棄用折扣· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 249

10.5 差分半梯度n 步Sarsa · · · · · · · · · · · · · · · · · · · · · · 251

10.6 本章小結· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 252

第11 章基於函式逼近的離軌策略方法· · · · · · · · · · · · · · · · · · 253

11.1 半梯度方法· · · · · · · · · · · · · · · · · · · · · · · · · · · · 254

11.2 離軌策略發散的例子· · · · · · · · · · · · · · · · · · · · · · · 256

11.3 致命三要素· · · · · · · · · · · · · · · · · · · · · · · · · · · · 260

11.4 線性價值函式的幾何性質· · · · · · · · · · · · · · · · · · · · · 262

11.5 對貝爾曼誤差做梯度下降· · · · · · · · · · · · · · · · · · · · · 266

11.6 貝爾曼誤差是不可學習的· · · · · · · · · · · · · · · · · · · · · 270

11.7 梯度TD 方法· · · · · · · · · · · · · · · · · · · · · · · · · · · 274

11.8 強調TD 方法· · · · · · · · · · · · · · · · · · · · · · · · · · · 278

11.9 減小方差· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 279

11.10 本章小結· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 280

第12 章資格跡· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 283

12.1 -回報· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 284

12.2 TD()· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 287

12.3 n-步截斷- 回報方法· · · · · · · · · · · · · · · · · · · · · · · 291

12.4 重做更新：線上-回報算法· · · · · · · · · · · · · · · · · · · 292

12.5 真實的線上TD() · · · · · · · · · · · · · · · · · · · · · · · · 294

12.6 ? 蒙特卡洛學習中的荷蘭跡· · · · · · · · · · · · · · · · · · · · 296

12.7 Sarsa()· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 298

12.8 變數和

· · · · · · · · · · · · · · · · · · · · · · · · · · · · 303

v

強化學習(第2 版)

12.9 帶有控制變數的離軌策略資格跡· · · · · · · · · · · · · · · · · 304

12.10 從Watkins 的Q() 到樹回溯TB() · · · · · · · · · · · · · · · 308

12.11 採用資格跡保障離軌策略方法的穩定性· · · · · · · · · · · · · · 310

12.12 實現中的問題· · · · · · · · · · · · · · · · · · · · · · · · · · · 312

12.13 本章小結· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 312

第13 章策略梯度方法· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 317

13.1 策略近似及其優勢· · · · · · · · · · · · · · · · · · · · · · · · 318

13.2 策略梯度定理· · · · · · · · · · · · · · · · · · · · · · · · · · · 320

13.3 REINFORCE：蒙特卡洛策略梯度· · · · · · · · · · · · · · · · 322

13.4 帶有基線的REINFORCE · · · · · · · · · · · · · · · · · · · · 325

13.5 “行動器-評判器”方法· · · · · · · · · · · · · · · · · · · · · · 327

13.6 持續性問題的策略梯度· · · · · · · · · · · · · · · · · · · · · · 329

13.7 針對連續動作的策略參數化方法· · · · · · · · · · · · · · · · · 332

13.8 本章小結· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 333

第III 部分表格型深入研究· · · · · · · · · · · · · · · · · · · · · · · · · · 337

第14 章心理學· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 339

14.1 預測與控制· · · · · · · · · · · · · · · · · · · · · · · · · · · · 340

14.2 經典條件反射· · · · · · · · · · · · · · · · · · · · · · · · · · · 341

14.2.1 阻塞與高級條件反射· · · · · · · · · · · · · · · · · · · · · 342

14.2.2 Rescorla-Wagner 模型· · · · · · · · · · · · · · · · · · · · 344

14.2.3 TD 模型· · · · · · · · · · · · · · · · · · · · · · · · · · 347

14.2.4 TD 模型模擬· · · · · · · · · · · · · · · · · · · · · · · · 348

14.3 工具性條件反射· · · · · · · · · · · · · · · · · · · · · · · · · · 355

14.4 延遲強化· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 359

14.5 認知圖· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 361

14.6 習慣行為與目標導向行為· · · · · · · · · · · · · · · · · · · · · 362

14.7 本章小結· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 366

第15 章神經科學· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 373

15.1 神經科學基礎· · · · · · · · · · · · · · · · · · · · · · · · · · · 374

15.2 收益信號、強化信號、價值和預測誤差· · · · · · · · · · · · · · 375

15.3 收益預測誤差假說· · · · · · · · · · · · · · · · · · · · · · · · 377

15.4 多巴胺· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 379

15.5 收益預測誤差假說的實驗支持· · · · · · · · · · · · · · · · · · · 382

15.6 TD 誤差/多巴胺對應· · · · · · · · · · · · · · · · · · · · · · · 385

15.7 神經“行動器-評判器” · · · · · · · · · · · · · · · · · · · · · · 390

15.8 行動器與評判器學習規則· · · · · · · · · · · · · · · · · · · · · 393

15.9 享樂主義神經元· · · · · · · · · · · · · · · · · · · · · · · · · · 397

15.10 集體強化學習· · · · · · · · · · · · · · · · · · · · · · · · · · · 399

15.11 大腦中的基於模型的算法· · · · · · · · · · · · · · · · · · · · · 402

15.12 成癮· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 403

15.13 本章小結· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 404

第16 章套用及案例分析· · · · · · · · · · · · · · · · · · · · · · · · · · · 413

16.1 TD-Gammon · · · · · · · · · · · · · · · · · · · · · · · · · · · 413

16.2 Samuel 的跳棋程式· · · · · · · · · · · · · · · · · · · · · · · · 418

16.3 Watson 的每日雙倍投注· · · · · · · · · · · · · · · · · · · · · 421

16.4 最佳化記憶體控制· · · · · · · · · · · · · · · · · · · · · · · · · · · 424

16.5 人類級別的視頻遊戲· · · · · · · · · · · · · · · · · · · · · · · 428

16.6 主宰圍棋遊戲· · · · · · · · · · · · · · · · · · · · · · · · · · · 433

16.6.1 AlphaGo · · · · · · · · · · · · · · · · · · · · · · · · · · 436

16.6.2 AlphaGo Zero · · · · · · · · · · · · · · · · · · · · · · · 439

16.7 個性化網路服務· · · · · · · · · · · · · · · · · · · · · · · · · · 442

16.8 熱氣流滑翔· · · · · · · · · · · · · · · · · · · · · · · · · · · · 446

強化學習(第2 版)

第17 章前沿技術· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 451

17.1 廣義價值函式和輔助任務· · · · · · · · · · · · · · · · · · · · · 451

17.2 基於選項理論的時序摘要· · · · · · · · · · · · · · · · · · · · · 453

17.3 觀測量和狀態· · · · · · · · · · · · · · · · · · · · · · · · · · · 456

17.4 設計收益信號· · · · · · · · · · · · · · · · · · · · · · · · · · · 460

17.5 遺留問題· · · · · · · · · · · · · · · · · · · · · · · · · · · · · 464

17.6 人工智慧的未來· · · · · · · · · · · · · · · · · · · · · · · · · · 467

參考文獻· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 473

相關詞條

熱門詞條

聯絡我們