結構化增強學習及其在虛擬人運動規劃中的套用

結構化增強學習及其在虛擬人運動規劃中的套用

《結構化增強學習及其在虛擬人運動規劃中的套用》是依託中國人民解放軍國防科技大學,由徐昕擔任項目負責人的面上項目。

基本介紹

  • 中文名:結構化增強學習及其在虛擬人運動規劃中的套用
  • 項目類別:面上項目
  • 項目負責人:徐昕
  • 依託單位:中國人民解放軍國防科技大學
中文摘要,結題摘要,

中文摘要

結構化增強學習(Hierarchical reinforcement learning: HRL)是求解大規模空間複雜最佳化決策問題的一類重要方法,具有廣泛的套用前景,近年來成為機器學習與智慧型系統的研究熱點。本項目以虛擬人運動規劃面臨的高維空間序貫最佳化決策問題為背景,研究結構化增強學習的快速策略疊代算法與自適應分層逼近算法,克服已有方法面臨的高維連續狀態空間逼近與學習泛化問題;結合HRL的理論方法創新,研究結構化增強學習在虛擬人運動規劃中的套用,包括基於HRL的分層路徑規劃和自適應運動合成方法等。本項目的成果將有效解決現有HRL理論方法面臨的算法計算效率與高維空間泛化性能等挑戰問題,為虛擬人運動規劃提供高效的學習最佳化手段,同時也將推動結構化增強學習在實際大規模最佳化控制問題中的套用。

結題摘要

本項目旨在研究結構化增強學習(HRL)的快速策略疊代和自適應分層逼近等新理論和新算法,提高結構化增強學習在高維連續空間的泛化性能與學習效率;在理論方法創新的基礎上,針對虛擬人與操作環境互動過程中存在的複雜約束問題,探討多約束條件下虛擬人運動規劃的技術難點,為複雜環境的虛擬人路徑規劃提供理論基礎和高效算法。主要研究成果包括: (1)結構化增強學習的快速策略疊代理論和方法。為提高結構化增強學習中近似策略疊代算法的學習速度和收斂速率,分別提出了基於核的特徵自動構造和基於流形的特徵學習方法。首次在自適應評價線上學習中引入稀疏化核方法,實現了連續狀態與行為空間的高效的線上增強學習算法。提出連續空間特徵基構造的改進的圖拉普拉斯方法,並且與一類稱為表示策略疊代的近似策略疊代方法結合,提出一種新的流形增強學習算法,仿真和實驗結果驗證了該算法相比已有算法能夠在多種參數設定條件下獲得更好的學習性能。 (2)在已有工作的基礎上,提出和完善了一種求解大規模或者連續空間問題的基於二叉樹空間分解的分層近似策略疊代(HAPI)。從理論上分析得出,由於將初始的MDP分解成為具有二叉樹結構的子MDP,再用API方法逼近局部近似最優策略,所以該方法可以降低複雜度並且保持較高的精度。通過對三個標準學習控制問題的試驗,證明了在保持相同樣本和基函式的條件下,HAPI方法與已有算法相比較,可以得到更好的近似最優策略。 (3)以虛擬維修套用中多約束條件下的虛擬人運動規劃為目標,研究基於結構化增強學習的虛擬人分層運動規劃理論框架。在該框架中,把運動規劃問題描述為Markov過程模型,結合底層的RRT路徑規划算法,通過結構化增強學習方法實現高維空間的虛擬人路徑規劃。 項目共發表論文22篇,12篇進入SCI檢索,主要成果發表在IEEE Transactions on Neural Networks and Learning Systems, IEEE Transactions on Control Systems Technology等國際權威期刊,全部論文均進入EI檢索源。項目負責人受邀擔任國際期刊Information Sciences(IF=3.6)的Associate Editor和Int. J. of Adaptive Control and Signal Processing的Guest Editor

相關詞條

熱門詞條

聯絡我們