強化學習:原理與Python實戰

《強化學習:原理與Python實戰》是2023年機械工業出版社出版的圖書。

基本介紹

  • 中文名:強化學習:原理與Python實戰
  • 出版時間:2023年8月1日
  • 出版社:機械工業出版社
  • ISBN:9787111728917
內容簡介,圖書目錄,作者簡介,

內容簡介

本書從原理和實戰兩個方面介紹了強化學習。原理方面,深入介紹了主流強化學習理論和算法,覆蓋資格跡等經典算法和MuZero等深度強化學習算法;實戰方面,每章都配套了編程案例,以方便讀者學習。
全書從邏輯上分為三部分。
第1章:從零開始介紹強化學習的背景知識,介紹環境庫Gym的使用。
第2~15章:基於折扣獎勵離散時間Markov決策過程模型,介紹強化學習的主幹理論和常見算法。採用數學語言推導強化學習的基礎理論,進而在理論的基礎上講解算法,並為算法提供配套代碼實現。基礎理論的講解突出主幹部分,算法講解全面覆蓋主流的強化學習算法,包括經典的非深度強化學習算法和近年流行的強化學習算法。Python實現和算法講解一一對應,還給出了深度強化學習算法的TensorFlow和PyTorch對照實現。
第16章:介紹其他強化學習模型,包括平均獎勵模型、連續時間模型、非齊次模型、半Markov模型、部分可觀測模型等,以便更好了解強化學習研究的全貌。

圖書目錄

數學符號表
前言
第1章初識強化學習111強化學習及其關鍵元素1
1.2強化學習的套用3
1.3智慧型體/環境接口4
1.4強化學習的分類6
1.4.1按任務分類6
1.4.2按算法分類8
1.5強化學習算法的性能指標9
1.6案例:基於Gym庫的智慧型體/環境接口10
1.6.1安裝Gym庫11
1.6.2使用Gym庫11
1.6.3小車上山13
1.7本章小結18
1.8練習與模擬面試19
第2章Markov決策過程2121Markov決策過程模型21
2.1.1離散時間Markov決策過程21
2.1.2環境與動力24
2.1.3策略26
2.1.4帶折扣的回報26
2.2價值27
2.2.1價值的定義28
2.2.2價值的性質28
2.2.3策略的偏序和改進34
2.3帶折扣的分布35
2.3.1帶折扣的分布的定義35
2.3.2帶折扣的分布的性質37
2.3.3帶折扣的分布和策略的等價性39
2.3.4帶折扣的分布下的期望40
2.4最優策略與最優價值41
2.4.1從最優策略到最優價值41
2.4.2最優策略的存在性42
2.4.3最優價值的性質與Bellman
最優方程43
2.4.4用線性規劃法求解最優價值48
2.4.5用最優價值求解最優策略51
2.5案例:懸崖尋路52
2.5.1使用環境52
2.5.2求解策略價值53
2.5.3求解最優價值54
2.5.4求解最優策略55
2.6本章小結55
2.7練習與模擬面試57
第3章有模型數值疊代5931Bellman運算元及其性質59
3.2有模型策略疊代64
3.2.1策略評估65
3.2.2策略改進66
3.2.3策略疊代67
3.3價值疊代68
3.4自益與動態規劃69
3.5案例:冰面滑行70
3.5.1使用環境71
3.5.2有模型策略疊代求解73
3.5.3有模型價值疊代求解76
3.6本章小結76
3.7練習與模擬面試77
第4章回合更新價值疊代78
4.1同策回合更新79
4.1.1同策回合更新策略評估79
4.1.2帶起始探索的同策回合更新84
4.1.3基於柔性策略的同策回合更新86
4.2異策回合更新89
4.2.1重要性採樣89
4.2.2異策回合更新策略評估92
4.2.3異策回合更新最優策略求解93
4.3實驗:21點遊戲94
4.3.1使用環境94
4.3.2同策策略評估96
4.3.3同策最優策略求解98
4.3.4異策策略評估101
4.3.5異策最優策略求解102
4.4本章小結103
4、5練習與模擬面試104
第5章時序差分價值疊代10651時序差分目標106
5.2同策時序差分更新109
5.2.1時序差分更新策略評估109
5.2.2SARSA算法113
5.2.3期望SARSA算法115
5.3異策時序差分更新117
5.3.1基於重要性採樣的異策算法117
5.3.2Q學習119
5.3.3雙重Q學習120
5.4資格跡121
5.4.1λ回報122
5.4.2TD(λ)算法123
5.5案例:的士調度125
5.5.1使用環境126
5.5.2同策時序差分學習127
5.5.3異策時序差分學習130
5.5.4資格跡學習132
56本章小結134
57練習與模擬面試135
第6章函式近似方法137
6.1函式近似原理138
6.2基於梯度的參數更新139
6.2.1隨機梯度下降139
6.2.2半梯度下降141
6.2.3帶資格跡的半梯度下降142
6.3函式近似的收斂性144
6.3.1收斂的條件144
6.3.2Baird反例145
6.4深度Q網路147
6.4.1經驗回放148
6.4.2目標網路151
6.4.3雙重深度Q網路152
6.4.4決鬥深度Q網路153
6.5案例:小車上山154
6.5.1使用環境155
6.5.2用線性近似求解最優策略156
6.5.3用深度Q網路求解最優策略161
6.6本章小結172
6.7練習與模擬面試172
第7章回合更新策略梯度方法17471策略梯度算法的原理174
7.1.1函式近似策略174
7.1.2策略梯度定理175
7.1.3策略梯度和極大似然估計的關係179
7.2同策回合更新策略梯度算法179
7.2.1簡單的策略梯度算法180
7.2.2帶基線的簡單策略梯度算法180
7.3異策回合更新策略梯度算法182
7.4案例:車桿平衡183
7.4.1用同策策略梯度算法求解最優策略184
7.4.2用異策策略梯度算法求解最優策略189
7.5本章小結195
7.6練習與模擬面試196
第8章執行者/評論者197
8.1執行者/評論者方法197
8.2同策執行者/評論者算法198
8.2.1動作價值執行者/評論者算法198
8.2.2優勢執行者/評論者算法199
8.2.3帶資格跡的執行者/評論者算法200
8.3基於代理優勢的同策算法201
8.3.1性能差別引理201
8.3.2代理優勢202
8.3.3鄰近策略最佳化203
8.4自然梯度和信賴域算法205
8.4.1KL散度與Fisher信息矩陣206
8.4.2代理優勢的信賴域208
8.4.3自然策略梯度算法209
8.4.4信賴域策略最佳化212
8.5重要性採樣異策執行者/評論者算法213
8.6案例:雙節倒立擺214
8.6.1用同策執行者/評論者算法求解最優策略216
8.6.2用基於代理優勢的同策算法求解最優策略226
8.6.3用自然策略梯度和信賴域算法求解最優策略230
8.6.4用重要性採樣異策執行者/評論者算法求解最優策略242
8.7本章小結246
8.8練習與模擬面試247
第9章連續動作空間的確定性策略248
9.1確定性策略梯度定理248
9.2同策確定性算法250
9.3異策確定性算法251
9.3.1基本的異策確定性執行者/評論者算法251
9.3.2深度確定性策略梯度算法253
9.3.3雙重延遲深度確定性策略梯度算法254
9.4探索過程255
9.5案例:倒立擺的控制256
9.5.1用深度確定性策略梯度算法求解257
9.5.2用雙重延遲深度確定性算法求解263
9.6本章小結268
9.7練習與模擬面試268
第10章最大熵強化學習270101最大熵強化學習與柔性強化學習理論270
10.1.1獎勵工程和帶熵的獎勵270
10.1.2柔性價值272
10.1.3柔性策略改進定理和最大熵強化學習的疊代求解273
10.1.4柔性最優價值275
10.1.5柔性策略梯度定理276
10.2柔性強化學習算法281
10.2.1柔性Q學習281
10.2.2柔性執行者/評論者算法282
10.3自動熵調節284
10.4案例:月球登入器286
10.4.1環境安裝286
10.4.2使用環境287
10.4.3用柔性Q學習求解LunarLander289
10.4.4用柔性執行者/評論者求解LunarLander292
10.4.5自動熵調節用於LunarLander297
10.4.6求解LunarLander Continuous302
10.5本章小結308
10.6練習與模擬面試309
第11章基於策略的無梯度算法310
11.1無梯度算法310
11.1.1進化策略算法310
11.1.2增強隨機搜尋算法311
11.2無梯度算法和策略梯度算法的比較312
11.3案例:雙足機器人313
11.3.1獎勵截斷314
11.3.2用進化算法求解315
11.3.3用增強隨機搜尋算法求解317
11.4本章小結318
11.5練習與模擬面試319
第12章值分布強化學習320121價值分布及其性質320
12.2效用最大化強化學習323
12.3基於機率分布的算法326
12.3.1類別深度Q網路算法326
12.3.2帶效用的類別深度Q網路算法328
12.4基於分位數的值分布強化學習329
12.4.1分位數回歸深度Q網路算法331
12.4.2含蓄分位網路算法333
12.4.3帶效用的分位數回歸算法334
12.5類別深度Q網路算法和分位數回歸算法的比較335
12.6案例:Atari電動遊戲Pong336
12.6.1Atari遊戲環境的使用336
12.6.2Pong遊戲338
12.6.3包裝Atari遊戲環境339
12.6.4用類別深度Q網路算法玩遊戲340
12.6.5用分位數回歸深度Q網路算法玩遊戲345
12.6.6用含蓄分位網路算法玩遊戲349
12.7本章小結356
12.8練習與模擬面試356
第13章最小化遺憾358
13.1遺憾358
13.2多臂賭博機360
13.2.1多臂賭博機問題描述360
13.2.2ε貪心算法361
13.2.3置信上界361
13.2.4Bayesian置信上界算法365
13.2.5Thompson採樣算法368
13.3置信上界價值疊代368
13.4案例:Bernoulli獎勵多臂賭博機376
13.4.1創建自定義環境377
13.4.2用ε貪心策略求解378
13.4.3用第一置信上界求解379
13.4.4用Bayesian置信上界求解380
13.4.5用Thompson採樣求解381
13.5本章小結382
13.6練習與模擬面試382
第14章樹搜尋384
14.1回合更新樹搜尋385
14.1.1選擇387
14.1.2擴展和評估388
14.1.3回溯389
14.1.4決策390
14.1.5訓練回合更新樹搜尋用到的神經網路390
14.2回合更新樹搜尋在棋盤遊戲中的套用393
14.2.1棋盤遊戲393
14.2.2自我對弈398
14.2.3針對棋盤遊戲的網路399
14.2.4從AlphaGo到MuZero401
14.3案例:井字棋403
14.3.1棋盤遊戲環境boardgame2403
14.3.2窮盡式搜尋408
14.3.3啟發式搜尋410
14.4本章小結418
14.5練習與模擬面試418
第15章模仿學習和人類反饋強化學習420
15.1模仿學習420
15.1.1f散度及其性質421
15.1.2行為克隆427
15.1.3生成對抗模仿學習429
15.1.4逆強化學習431
15.2人類反饋強化學習和生成性預訓練變換模型432
15.3案例:機器人行走433
15.3.1擴展庫PyBullet433
15.3.2用行為克隆模仿學習435
15.3.3用生成對抗模仿學習438
15.4本章小結444
15.5練習與模擬面試445
第16章更多智慧型體/環境接口模型446
16.1平均獎勵離散時間Markov決策過程446
16.1.1平均獎勵447
16.1.2差分價值450
16.1.3最優策略453
16.2連續時間Markov決策過程456
16.3非齊次Markov決策過程459
16.3.1非齊次狀態表示460
16.3.2時間指標有界的情況461
16.3.3時間指標無界的情況462
16.4半Markov決策過程463
16.4.1半Markov決策過程及其價值463
16.4.2最優策略求解466
16.4.3分層強化學習466
16.5部分可觀測Markov決策過程467
16.5.1離散時間部分可觀測Markov決策過程467
16.5.2信念469
16.5.3信念Markov決策過程473
16.5.4信念價值476
16.5.5有限部分可觀測Markov決策過程的信念價值479
16.5.6使用記憶481
16.6案例:老虎482
16.6.1帶折扣回報期望與平均獎勵的比較482
16.6.2信念Markov決策過程484
16.6.3非齊次的信念狀態價值485
16.7本章小結487
16.8練習與模擬面試489

作者簡介

肖智清
強化學習一線研發人員,清華大學工學博士。在國內外出版多本人工智慧專著,在知名期刊和會議上發表多篇第一作者論文。他是開源項目Gym的源碼貢獻者,並在國內外多項程式設計和數據科學競賽上獲得冠軍。

相關詞條

熱門詞條

聯絡我們