《基於覆蓋數的部分可觀察不確定性規劃理論及方法》是依託蘇州大學,由章宗長擔任項目負責人的青年科學基金項目。
基本介紹
- 中文名:基於覆蓋數的部分可觀察不確定性規劃理論及方法
- 項目類別:青年科學基金項目
- 項目負責人:章宗長
- 依託單位:蘇州大學
項目摘要,結題摘要,
項目摘要
部分可觀察馬氏決策過程(簡稱POMDP)為智慧型體在隨機環境中的不確定性規劃問題提供了一個通用的數學模型。POMDP規劃問題的近似求解容易陷入信念狀態“維數災”和“歷史災”問題。問題的狀態數是“維數災”的度量,搜尋空間的覆蓋數是“歷史災”的度量。本項目的研究內容包括:(1)通過在數學上一般化覆蓋數的概念,把離散空間POMDP模型中有關覆蓋數的規劃理論推廣到連續空間的POMDP模型;(2)利用樹狀試探搜尋的思想,改進現有的基於覆蓋數的離線規划算法,提高算法的收斂速度;(3)基於已提出的確定性的稀疏部分可觀察樹線上算法,結合覆蓋數理論、雜合啟發法和樹狀試探搜尋法等,提出新的基於覆蓋數理論的線上近似規劃方法;(4)評估新提出的離線和線上規划算法處理大空間POMDP規劃問題的實驗性能。通過以上研究,擬豐富基於覆蓋數的POMDP規劃理論體系,提出基於覆蓋數理論的大空間POMDP離線和線上規劃方法。
結題摘要
本項目(1)用覆蓋數理論研究了連續狀態空間POMDP模型的近似規劃複雜性;把POMDP近似規劃問題的覆蓋數理論從1範數度量空間推廣到了n範數度量空間;建立了基於不容許的啟發式信息約束下的搜尋空間覆蓋數的近似規劃理論;提出了可擴展的估算覆蓋數的方法。(2)針對連續狀態空間的POMDP問題,提出了三種途徑來裁剪並最佳化由蒙特卡羅值疊代方法得到的策略圖。(3)綜述了POMDP近似規劃理論和方法、深度強化學習方法。(4)針對Q學習方法中Q值高估和雙Q學習方法中Q值低估的問題,提出了加權雙Q學習方法。(5)為提升深度強化學習方法在部分可觀察隨機環境中的穩定性和學習效果,提出了基於多重門限機制的異步行動者-評論家算法、帶優先權採樣的深度Q網路模型和帶視覺注意力機制的雙層門限循環神經網路模型。(6)為提升深度強化學習方法在多智慧型體非靜態對手環境中的學習效果,提出了深度貝葉斯策略重用方法。基於上述成果,在IJCAI、NeurIPS、AAMAS、《Frontiers of Computer Science》和《計算機學報》等會議和期刊發表學術論文15篇(其中,SCI檢索1篇,EI檢索13篇),撰寫專著章節2章,授權中國發明專利1項,登記軟體著作權4項。本項目培養了多名研究生,其中已畢業的研究生4名,在讀碩士研究生3名。