基本介紹
內容簡介,圖書目錄,
內容簡介
主要內容包括:求解Markov鏈學習預測問題的時域差值學習算法和理論,求解連續空間Markov決策問題的梯度增強學習算法以及進化一梯度混合增強學習算法,基於核的近似動態規划算法,增強學習在移動機器人導航與控制中的套用等。《增強學習與近似動態規劃》是作者在多個國家自然科學基金項目資助下取得的研究成果的總結,意在推動增強學習與近似動態規劃理論與套用的發展,對於智慧型科學的前沿研究和智慧型學習系統的套用具有重要的科學意義。
《增強學習與近似動態規劃》可作為高等院校與科研院所中從事人工智慧與智慧型信息處理、機器人與智慧型控制、智慧型決策支持系統等專業領域的研究和教學用書,也可作為自動化、計算機與管理學領域其他相關專業師生及科研人員的參考書。
圖書目錄
《智慧型科學技術著作叢書》序
前言
第1章 緒論
1.1 引言
1.2 增強學習與近似動態規劃的研究概況
1.2.1 增強學習研究的相關學科背景
1.2.2 增強學習算法的研究進展
1.2.3 增強學習的泛化方法與近似動態規劃
1.2.4 增強學習相關理論研究與多Agent增強學習
1.2.5 增強學習套用的研究進展
1.3 移動機器人導航控制方法的研究現狀和發展趨勢
1.3.1 移動機器人體系結構的研究進展
1.3.2 移動機器人反應式導航方法的研究概況
1.3.3 移動機器人路徑跟蹤控制的研究概況
1.4 全書的組織結構
參考文獻
第2章 線性時域差值學習理論與算法
2.1 Markov鏈與多步學習預測問題
2.1.1 Markov鏈的基礎理論
2.1.2 基於Markov鏈的多步學習預測問題
2.2 TD(λ)學習算法
2.2.1 表格型TD(λ)學習算法
2.2.2 基於值函式逼近的TD(λ)學習算法
2.3 多步遞推最小二乘TD學習算法及其收斂性理論
2.3.1 多步遞推最小二乘TD(RLS-TD(λ)學習算法
2.3.2 RLS-TD(λ)學習算法的一致收斂性分析
2.4 多步學習預測的仿真研究
2.4.1 HlopWorld問題學習預測仿真
2.4.2 連續狀態隨機行走問題的學習預測仿真
2.5 小結
參考文獻
第3章 基於核的時域差值學習算法
3.1 核方法與基於核的學習機器
3.1.1 核函式的概念與性質
3.1.2 再生核Hilbert空間與核函式方法
3.2 核最小二乘時域差值學習算法
3.2.1 線性TD(λ)學習算法
3.2.2 KLS-TD(λ)學習算法
3.2.3 學習預測實驗與比較
3.3 小結
參考文獻
第4章 求解Markov決策問題的梯度增強學習算法
4.1 Markov決策過程與表格型增強學習算法
4.1.1 Markov決策過程及其最優值函式
4.1.2 表格型增強學習算法及其收斂性理論
4.2 基於改進CMAC的直接梯度增強學習算法
4.2.1 CMAC的結構
4.2.2 基於C2MAC的直接梯度增強學習算法
4.2.3 兩種改進的C2MAC編碼結構及其套用實例
4.3 基於值函式逼近的殘差梯度增強學習算法
4.3.1 多層前饋神經網路函式逼近器與已有的梯度增強學習算法
4.3.2 非平穩策略殘差梯度(RGNP)增強學習算法
4.3.3 RGNP學習算法的收斂性和近似最優策略性能的理論分析
4.3.4 Mountain-Car問題的仿真研究
4.3.5 Acrobot學習控制的仿真研究
4.4 求解連續行為空間Markov決策問題的快速AHC學習算法
4.4.1 AHC學習算法與Actor-Critic學習控制結構
4.4.2 Fast-AHC學習算法
4.4.3 連續控制量條件下的倒立擺學習控制仿真研究
4.4.4 連續控制量條件下Acrobot系統的學習控制
4.5 小結
參考文獻
第5章 求解Markov決策問題的進化-梯度混合增強學習算法
5.1 進化計算的基本原理和方法
5.1.1 進化計算的基本原理和算法框架
5.1.2 進化算法的基本要素
5.1.3 進化算法的控制參數和性能評估
5.2 求解離散行為空間MDP的進化-梯度混合算法
5.2.1 HERG算法的設計要點
5.2.2 HERG算法的流程
5.2.3 HtERG算法的套用實例:Mountain-Car學習控制問題
5.2.4 Acrobot系統的進化增強學習仿真
5.3 求解連續行為空間MDP的進化-梯度混合增強學習算法
5.3.1 進化AHC算法
5.3.2 連續控制量條件下Acrobot系統的進化增強學習仿真
5.4 小結
參考文獻
第6章 基於核的近似動態規划算法與理論
6.1 增強學習與近似動態規劃的若干核心問題
6.2 基於核的近似策略疊代算法與收斂性理論
6.2.1 策略疊代與TD學習算法
6.2.2 核策略疊代算法KLSPI的基本框架
6.2.3 採用核稀疏化技術的KLSTD-Q時域差值算法
6.2.4 KLSPI算法的收斂性分析
6.3 核策略疊代算法的性能測試實驗研究
6.3.1 具有20個狀態的隨機Markov鏈問題
6.3.2 具有50個狀態的隨機Markov決策問題
6.3.3 隨機倒立擺學習控制問題
6.4 小結
參考文獻
第7章 基於增強學習的移動機器人反應式導航方法
7.1 基於分層學習的移動機器人混合式體系結構
7.2 基於增強學習的移動機器人反應式導航體系結構與算法
7.2.1 未知環境中移動機器人導航混合式體系結構的具體設計
7.2.2 基於神經網路增強學習的反應式導航算法
7.3 移動機器人增強學習導航的仿真和實驗研究
7.3.1 CIT-AVT-VI移動機器人平台的感測器系統與仿真實驗環境
7.3.2 增強學習導航的仿真研究
7.3.3 CIT-AVT-VI移動機器人的實時學習導航控制實驗
7.4 小結
參考文獻
第8章 RL與ADP在移動機器人運動控制中的套用
8.1 基於增強學習的自適應PID控制器
8.2 自動駕駛汽車的側向增強學習控制
8.2.1 自動駕駛汽車的動力學模型
8.2.2 用於自動駕駛汽車側向控制的增強學習PID控制器設計
8.2.3 自動駕駛汽車直線路徑跟蹤仿真
8.3 基於線上增強學習的室內移動機器人路徑跟蹤控制
8.3.1 一類室內移動機器人系統的運動學和動力學模型
8.3.2 增強學習路徑跟蹤控制器設計
8.3.3 參考路徑為直線時的仿真研究
8.3.4 參考路徑為圓弧時的仿真研究
8.3.5 CIT-AVT-VI移動機器人實時線上學習路徑跟蹤實驗
8.4 採用近似策略疊代的移動機器人學習控制方法研究
8.4.1 基於近似策略疊代的學習控制方法與仿真研究
8.4.2 基於P3-AT平台的學習控制器設計
8.4.3 直線跟隨實驗
8.4.4 曲線跟隨實驗
8.5 小結
參考文獻
第9章 總結與展望
參考文獻