統計強化學習:現代機器學習方法

《統計強化學習:現代機器學習方法》是2019年機械工業出版社出版的圖書。

基本介紹

  • 中文名:統計強化學習:現代機器學習方法
  • 出版時間:2019年
  • 出版社:機械工業出版社
  • ISBN:9787111622451
內容簡介,圖書目錄,作者簡介,

內容簡介

本書從現代機器學習的視角介紹了統計強化學習的基本概念和實用算法。它涵蓋了各種類型的強化學習方法,包括基於模型的方法和與模型無關的方法,策略疊代和策略搜尋方法。

圖書目錄

譯者序
前言
作者簡介
第一部分 簡介
第1章 強化學習介紹3
 1.1 強化學習3
 1.2 數學形式化8
 1.3 本書結構11
  1.3.1 模型無關策略疊代11
  1.3.2 模型無關策略搜尋12
  1.3.3 基於模型的強化學習13
第二部分 模型無關策略疊代
第2章 基於值函式近似的策略疊代17
 2.1 值函式17
  2.1.1 狀態值函式17
  2.1.2 狀態-動作值函式18
 2.2 最小二乘策略疊代19
  2.2.1 瞬時獎賞回歸20
  2.2.2 算法21
  2.2.3 正則化23
  2.2.4 模型選擇25
 2.3 本章小結26
第3章 值函式近似中的基函式設計27
 3.1 圖中的高斯核27
  3.1.1 MDP-誘導圖27
  3.1.2 通用高斯核28
  3.1.3 測地線高斯核29
  3.1.4 擴展到連續狀態空間30
 3.2 圖解說明30
  3.2.1 配置30
  3.2.2 測地線高斯核31
  3.2.3 通用高斯核33
  3.2.4 圖拉普拉斯特徵基33
  3.2.5 擴散小波35
 3.3 數值示例35
  3.3.1 機器人手臂控制35
  3.3.2 機器人導航39
 3.4 本章小結46
第4章 策略疊代中的樣本重用47
 4.1 形式化47
 4.2 離策略值函式近似48
  4.2.1 片段重要性加權49
  4.2.2 每次決策的重要性加權50
  4.2.3 自適應的每次決策重要性加權50
  4.2.4 圖解說明51
 4.3 展平參數的自動選擇54
  4.3.1 重要性加權交叉驗證54
  4.3.2 圖解說明55
 4.4 樣本重用策略疊代56
  4.4.1 算法56
  4.4.2 圖解說明56
 4.5 數值示例58
  4.5.1 倒立擺58
  4.5.2 小車爬山61
 4.6 本章小結64
第5章 策略疊代中的主動學習65
 5.1 主動學習的高效探索65
  5.1.1 問題配置65
  5.1.2 泛化誤差的分解66
  5.1.3 估計泛化誤差67
  5.1.4 設計採樣策略68
  5.1.5 圖解說明69
 5.2 主動策略疊代72
  5.2.1 具有主動學習的樣本重用策略疊代72
  5.2.2 圖解說明73
 5.3 數值示例74
 5.4 本章小結76
第6章 魯棒策略疊代79
 6.1 策略疊代中的魯棒性和可靠性79
  6.1.1 魯棒性79
  6.1.2 可靠性80
 6.2 最小絕對策略疊代81
  6.2.1 算法81
  6.2.2 圖解說明81
  6.2.3 性質82
 6.3 數值示例83
 6.4 可能的拓展88
  6.4.1 Huber損失88
  6.4.2 pinball損失89
  6.4.3 deadzone-linear損失90
  6.4.4 切比雪夫逼近90
  6.4.5 條件風險值91
 6.5 本章小結92
第三部分 模型無關策略搜尋
第7章 梯度上升的直接策略搜尋95
 7.1 形式化95
 7.2 梯度方法96
  7.2.1 梯度上升96
  7.2.2 方差約簡的基線減法98
  7.2.3 梯度估計量的方差分析99
 7.3 自然梯度法101
  7.3.1 自然梯度上升101
  7.3.2 圖解說明103
 7.4 計算機圖形中的套用:藝術家智慧型體104
  7.4.1 東方山水畫繪畫104
  7.4.2 狀態、動作和瞬時獎賞的設計106
  7.4.3 實驗結果111
 7.5 本章小結113
第8章 期望最大化的直接策略搜尋117
 8.1 期望最大化方法117
 8.2 樣本重用119
  8.2.1 片段重要性加權119
  8.2.2 每次決策的重要性加權122
  8.2.3 自適應的每次決策重要性加權123
  8.2.4 展平參數的自動選擇123
  8.2.5 樣本重用的加權獎賞回歸125
 8.3 數值示例125
 8.4 本章小結131
第9章 策略優先搜尋133
 9.1 形式化133
 9.2 基於參數探索的策略梯度134
  9.2.1 策略優先的梯度上升134
  9.2.2 方差約簡的基線減法135
  9.2.3 梯度估計量的方差分析136
  9.2.4 數值示例138
 9.3 策略優先搜尋中的樣本重用142
  9.3.1 重要性加權142
  9.3.2 基線減法的方差約簡144
  9.3.3 數值示例146
 9.4 本章小結153
第四部分 基於模型的強化學習
第10章 轉移模型估計157
 10.1 條件密度估計157
  10.1.1 基於回歸的方法157
  10.1.2 ε-鄰域核密度估計158
  10.1.3 最小二乘條件密度估計159
 10.2 基於模型的強化學習161
 10.3 數值示例162
  10.3.1 連續型鏈條遊走162
  10.3.2 人形機器人控制167
 10.4 本章小結171
第11章 轉移模型估計的維度約簡173
 11.1 充分維度約簡173
 11.2 平方損失條件熵173
  11.2.1 條件獨立174
  11.2.2 利用SCE進行維度約簡175
  11.2.3 SCE與平方損失互信息的關係176
 11.3 數值示例176
  11.3.1 人工和標準數據集176
  11.3.2 人形機器人179
 11.4 本章小結182
參考文獻183

作者簡介

杉山將(Masashi Sugiyama) 東京大學教授,研究興趣為機器學習與數據挖掘的理論、算法和套用。2007年獲得IBM學者獎,以表彰其在機器學習領域非平穩性方面做出的貢獻。2011年獲得日本信息處理協會頒發的Nagao特別研究員獎,以及日本文部科學省頒發的青年科學家獎,以表彰其對機器學習密度比范型的貢獻。

相關詞條

熱門詞條

聯絡我們