強化學習:前沿算法與套用

《強化學習:前沿算法與套用》是2023年機械工業出版社出版的圖書。

基本介紹

  • 中文名:強化學習:前沿算法與套用
  • 出版時間:2023年6月1日
  • 出版社: 機械工業出版社
  • ISBN:9787111724780
內容簡介,圖書目錄,作者簡介,

內容簡介

強化學習是機器學習的重要分支,是實現通用人工智慧的重要途徑。本書介紹了強化學習在算法層面的快速發展,包括值函式、策略梯度、值分布建模等基礎算法,以及為了提升樣本效率產生的基於模型學習、探索與利用、多目標學習、層次化學習、技能學習等算法,以及一些新興領域,包括離線學習、表示學習、元學習等,旨在提升數據高效性和策略的泛化能力的算法,還介紹了套用領域中強化學習在智慧型控制、機器視覺、語言處理、醫療、推薦、金融等方面的相關知識。
本書深入淺出、結構清晰、重點突出,系統地闡述了強化學習的前沿算法和套用,適合從事人工智慧、機器學習、最佳化控制、機器人、遊戲開發等工作的專業技術人員閱讀,還可作為計算機、人工智慧、智慧型科學相關專業的研究生和高年級本科生的教材。

圖書目錄

序言
前言
第1章 強化學習簡介/
1.1從監督學習到強化學習/
1.2強化學習的發展歷史/
1.3強化學習的研究範疇/
1.4強化學習的套用領域/
第2章 強化學習基礎知識/
2.1強化學習的核心概念/
2.2馬爾可夫性和決策過程/
2.3值函式和策略學習/
第3章 基於值函式的強化學習算法/
3.1深度Q學習的基本理論/
3.1.1深度Q網路/
3.1.2經驗池/
3.1.3目標網路/
3.2深度Q學習的過估計/
3.2.1過估計的產生原因/
3.2.2Double Q-學習/
3.3深度Q學習的網路改進和高效採樣/
3.3.1Dueling網路/
3.3.2高效採樣/
3.4周期後序疊代Q學習/
3.5Q學習用於連續動作空間/
3.5.1基於並行結構的 Q學習/
3.5.2基於順序結構的Q學習/
3.6實例:使用值函式學習的Atari遊戲/
3.6.1環境預處理/
3.6.2Q網路的實現/
3.6.3Q學習的核心步驟/
第4章 策略梯度疊代的強化學習算法/
4.1REINFORCE 策略梯度/
4.1.1策略梯度的基本形式/
4.1.2降低策略梯度的方差/
4.2異步策略梯度法/
4.2.1引入優勢函式/
4.2.2異步策略梯度/
4.3近端策略最佳化法/
4.3.1裁剪的最佳化目標/
4.3.2自適應的最佳化目標/
4.4深度確定性策略梯度/
4.4.1critic學習/
4.4.2actor學習/
4.4.3拓展1:探索噪聲/
4.4.4拓展2:孿生DDPG/
4.5最大熵策略梯度/
4.5.1熵約束的基本原理/
4.5.2SAC算法/
4.6實例:使用策略梯度的Mujoco任務/
4.6.1actor-critic網路實現/
4.6.2核心算法實現/
第5章 基於模型的強化學習方法/
5.1如何使用模型來進行強化學習/
5.2基於模型預測的規劃/
5.2.1隨機打靶法/
5.2.2集成機率軌跡採樣法/
5.2.3基於模型和無模型的混合算法/
5.2.4基於想像力的隱式規劃方法/
5.3黑盒模型的理論框架/
5.3.1隨機下界最佳化算法/
5.3.2基於模型的策略最佳化算法/
5.4白盒模型的使用/
5.4.1隨機值梯度算法/
5.4.2模型增強的actor-critic算法/
5.5實例:AlphaGo圍棋智慧型體/
5.5.1網路結構介紹/
5.5.2蒙特卡羅樹搜尋/
5.5.3總體訓練流程/
第6章 值分散式強化學習算法/
6.1離散分布投影的值分散式算法/
6.2分位數回歸的值分散式算法/
6.2.1分位數回歸/
6.2.2Wasserstein距離/
6.2.3QR-DQN算法/
6.2.4單調的分位數學習算法/
6.3隱式的值分布網路/
6.4基於值分布的代價敏感學習/
6.4.1IQN中的代價敏感學習/
6.4.2基於IQN的actor-critic模型的代價敏感學習/
6.5實例:基於值分布的Q網路實現/
6.5.1IQN模型構建/
6.5.2IQN損失函式/
第7章 強化學習中的探索算法/
7.1探索算法的分類/
7.2基於不確定性估計的探索/
7.2.1參數化後驗的算法思路/
7.2.2重採樣DQN/
7.3進行虛擬計數的探索/
7.3.1基於圖像生成模型的虛擬計數/
7.3.2基於哈希的虛擬計數/
7.4根據環境模型的探索/
7.4.1特徵表示的學習/
7.4.2隨機網路蒸餾/
7.4.3Never-Give-Up算法/
7.5實例:蒙特祖瑪復仇任務的探索/
7.5.1RND網路結構/
7.5.2RND的訓練/
7.5.3RND用於探索/
第8章 多目標強化學習算法/
8.1以目標為條件的價值函式/
8.1.1最大熵HER/
8.1.2動態目標HER/
8.2監督式的多目標學習/
8.2.1Hindsight模仿學習/
8.2.2加權監督式多目標學習/
8.3推廣的多目標學習/
8.4實例:仿真機械臂的多目標抓取/
8.4.1多目標實驗環境/
8.4.2HER的實現方法/
8.4.3MEP的算法實現/
第9章 層次化強化學習算法/
9.1層次化學習的重要性/
9.2基於子目標的層次化學習/
9.2.1封建網路的層次化學習/
9.2.2離策略修正的層次化學習/
9.2.3虛擬子目標的強化學習方法/
9.3基於技能的層次化學習/
9.3.1使用隨機網路的層次化學習/
9.3.2共享分層的元學習方法/
9.4基於選項的層次化學習/
9.4.1option與半馬爾可夫決策過程/
9.4.2option-critic結構/
9.5實例:層次化學習螞蟻走迷宮任務/
第10章 基於技能的強化學習算法/
10.1技能學習的定義/
10.2互信息最大化的技能學習算法/
10.2.1多樣性最大化技能學習算法/
10.2.2其他基於互信息的技能學習方法/
10.3融合環境模型的技能學習算法/
10.4最大化狀態覆蓋的技能學習算法/
10.5實例:人形機器人的技能學習/
第11章 離線強化學習算法/
11.1離線強化學習中面臨的困難/
11.2策略約束的離線學習/
11.2.1BCQ算法/
11.2.2BRAC算法/
11.2.3TD3-BC算法/
11.3使用保守估計的離線學習/
11.4基於不確定性的離線學習/
11.4.1UWAC算法/
11.4.2MOPO算法/
11.4.3PBRL算法/
11.5監督式的離線學習/
11.5.1DT算法/
11.5.2RVS算法/
11.6實例:使用離線學習的D4RL任務集/
11.6.1D4RL數據集的使用/
11.6.2CQL算法實現/
11.6.3TD3-BC算法實現/
第12章 元強化學習算法/
12.1元強化學習的定義/
12.2基於網路模型的元強化學習方法/
12.2.1使用循環神經網路的元強化學習方法/
12.2.2基於時序卷積和軟注意力機制的方法/
12.3元梯度學習/
12.4元強化學習中的探索方法/
12.4.1結構化噪聲探索方法/
12.4.2利用後驗採樣進行探索/
12.5實例:元學習訓練多任務獵豹智慧型體/
第13章 高效的強化學習表示算法/
13.1為什麼要進行表示學習/
13.2對比學習的特徵表示/
13.2.1基本原理和SimCLR算法/
13.2.2MoCo 算法/
13.2.3基於對比學習的 CURL算法/
13.2.4基於對比學習的 ATC算法/
13.2.5基於對比學習的 DIM算法/
13.2.6對比學習和互信息理論/
13.2.7完全基於圖像增廣的方法/
13.3魯棒的特徵表示學習/
13.3.1互模擬特徵/
13.3.2信息瓶頸特徵/
13.4使用模型預測的表示學習/
13.5實例:魯棒的仿真自動駕駛/
第14章 強化學習在智慧型控制中的套用/
14.1機器人控制/
14.1.1機械臂操作任務的控制/
14.1.2足式機器人的運動控制/
14.1.3多任務機器人控制/
14.1.4面臨的挑戰/
14.2電力最佳化控制/
14.2.1電力管理任務/
14.2.2需求回響/
14.3交通指揮最佳化控制/
14.3.1多信號燈合作控制/
14.3.2大規模信號燈控制方法/
14.3.3元強化學習信號燈控制/
第15章 強化學習在機器視覺中的套用/
15.1神經網路結構搜尋/
15.1.1利用強化學習解決NAS/
15.1.2其他前沿方法/
15.2目標檢測和跟蹤中的最佳化/
15.2.1強化學習與目標檢測/
15.2.2強化學習與實時目標跟蹤/
15.3視頻分析/
第16章 強化學習在語言處理中的套用/
16.1知識圖譜系統/
16.2智慧型問答系統/
16.2.1事後目標回放法/
16.2.2多任務對話系統/
16.3機器翻譯系統/
16.3.1NMT中獎勵的計算/
16.3.2策略梯度方差處理/
第17章 強化學習在其他領域中的套用/
17.1醫療健康系統/
17.1.1動態治療方案/
17.1.2重症監護/
17.1.3自動醫療診斷/
17.2個性化推薦系統/
17.2.1策略最佳化方法/
17.2.2基於圖的對話推薦/
17.3股票交易系統/
17.3.1FinRL強化學習框架/
17.3.2FinRL訓練示例/

作者簡介

白辰甲
上海人工智慧實驗室青年研究員,博士畢業於哈爾濱工業大學計算學部,曾在加拿大多倫多大學聯合培養,2022年獲哈工大優秀博士論文獎。在高水平國際會議和期刊上發表論文20餘篇,獲評機器學習頂會ICML 2021、ICLR 2022、NeurIPS 2022亮點論文。研究方向包括強化學習、博弈智慧型和具身智慧型。
趙英男
博士畢業於哈爾濱工業大學計算學部,曾在加拿大阿爾伯塔大學進行聯合培養,主要研究方向為深度強化學習、表征學習等,在國際會議和期刊上發表多篇學術論文。
郝建業
天津大學智慧型與計算學部副教授,獲哈爾濱工業大學學士學位,香港中文大學博士學位,曾任MIT計算機科學與人工智慧實驗室博士後研究員。研究方向為深度強化學習和多智慧型體系統,近年在NeurIPS、ICML、ICLR、AAAI、IJCAI等人工智慧領域知名會議和IEEE彙刊發表論文80餘篇,出版專著2部。
劉鵬
哈爾濱工業大學教授,博士生導師,模式識別與智慧型系統研究中心主任。主要研究方向為圖像處理、模式識別、機器學習。發表學術論文50餘篇,獲發明專利10餘項,獲黑龍江省科技進步一等獎1項。
王震
西北工業大學教授,網路空間安全學院黨委書記,國家保密學院常務副院長,Elected Member of Academia Europaea (EA), European Academy of Sciences and Arts (EASA),AAIA Fellow, 全球高被引科學家,國家傑青,國防創新團隊負責人。圍繞博弈智慧型,人工智慧基礎理論,網路空間智慧型對抗,在Nature Communications、PNAS、Science Advance、AAAI、NeurIPS、ICML、ICLR等發表系列成果,WoS引用2萬餘次,編制完成行標5項。獲科學探索獎,中國青年五四獎章,教育部、陝西省、學會科學技術獎一等獎等多個獎項。

相關詞條

熱門詞條

聯絡我們