《預測狀態表示中狀態空間劃分機制及套用研究》是依託廈門大學,由劉雲龍擔任項目負責人的面上項目。
基本介紹
- 中文名:預測狀態表示中狀態空間劃分機制及套用研究
- 項目類別:面上項目
- 項目負責人:劉雲龍
- 依託單位:廈門大學
項目摘要,結題摘要,
項目摘要
預測狀態表示(PSR)是解決局部可觀測問題的有效方法,但現有研究在整個狀態空間上獲取系統的PSR模型,計算複雜、獲取模型困難,相關算法僅能套用於較小規模系統。本項目以大規模系統為討論對象,研究PSR中狀態空間劃分機制,提出PSR模型的構建方案,並分析如何將獲取的PSR模型套用於規劃。首先,本項目擬通過確定系統的landmark集合,並以landmark為臨界點,將狀態空間劃分為多個子狀態空間,提出狀態空間的劃分方法;進而,分析子空間本身特性,研究子空間PSR模型的獲取方式,並通過子空間PSR模型構建整個系統的PSR模型, 提出基於狀態空間劃分的PSR模型的獲取方案;最後,考慮到獲取的模型往往不準確,結合模型本身特點,以大規模系統為套用背景,探討基於狀態空間劃分PSR模型的規划算法。通過項目的開展,可望實現PSR方法在大規模系統中的套用,為解決現實世界中廣泛存在的局部可觀測問題提供有效方案。
結題摘要
動態環境中的智慧型體,由於受到感知能力限制,往往感知不到環境的某些重要特徵,同時,採取動作後有時也會得不到預期效果。在這種局部可觀測、隨機的系統中如何獲取智慧型體的最優策略,即不確定性環境下的規劃問題,是人工智慧領域研究的重要問題。常用的解決該問題的途徑為首先對系統建模,進而根據模型對問題求解。預測狀態表示(PSR)是對系統建模的重要方法,相比局部可觀測馬爾科夫模型(POMDP),具有易學習、不易陷入局部極小點等諸多優勢,近年來,得到越來越多的關注和重視。本項目主要研究了系統預測狀態表示模型的獲取和套用,項目開展過程中,主要研究了以下內容:1、提出了系統狀態空間劃分方式,實現了子模型的獲取,完成了整個PSR模型的構建,並證明了相關方法理論正確性;2、利用Monte-Carlo Tree Search在大規模空間搜尋解決方案的優勢,通過提出模型熵的概念,並以模型熵為引導,將系統檢驗核的發現問題轉換為動作決策問題,實現了較大規模系統PSR模型的建立;3、譜方法(Spectral Method)是當前系統PSR模型獲取的主要方法,但在構建獲取系統PSR模型的Hankel矩陣時,不同檢驗的集合(列向量)往往導致不同的獲取模型精度,通過分析模型熵與模型精度之間的關係,進而通過模型熵確定相應的檢驗集合,實現了利用譜方法在獲取系統PSR模型時預測精度的提高;4、針對獲取系統整體模型存在的困難,研究了如何僅針對感興趣的事件預測的方案,提出了通過建立系統的MDP模型,實現對感興趣事件的預測,並進一步根據模型熵研究了如何提高模型的精度;5、實際套用中,獲取的模型很難完全準確,但現有基於模型的規劃,往往假定模型完全準確,本項目研究了模型不準確的情況下,如何獲取智慧型體的規劃策略問題;6、研究了其它方法,例如alternating direction method of multipliers (ADMM),在獲取系統PSR模型中的套用。通過項目的開展,實現了研究預期中較大規模系統(PocMan, 吃豆人)PSR模型的獲取,探討了基於不準確模型的智慧型體的決策方案,發表了多項高水平成果,為進一步的研究奠定了堅實基礎。