預測狀態表示中狀態空間劃分機制及套用研究

項目摘要

預測狀態表示（PSR）是解決局部可觀測問題的有效方法，但現有研究在整個狀態空間上獲取系統的PSR模型，計算複雜、獲取模型困難，相關算法僅能套用於較小規模系統。本項目以大規模系統為討論對象，研究PSR中狀態空間劃分機制，提出PSR模型的構建方案，並分析如何將獲取的PSR模型套用於規劃。首先，本項目擬通過確定系統的landmark集合，並以landmark為臨界點，將狀態空間劃分為多個子狀態空間，提出狀態空間的劃分方法;進而，分析子空間本身特性,研究子空間PSR模型的獲取方式，並通過子空間PSR模型構建整個系統的PSR模型, 提出基於狀態空間劃分的PSR模型的獲取方案;最後，考慮到獲取的模型往往不準確，結合模型本身特點，以大規模系統為套用背景，探討基於狀態空間劃分PSR模型的規划算法。通過項目的開展，可望實現PSR方法在大規模系統中的套用，為解決現實世界中廣泛存在的局部可觀測問題提供有效方案。

結題摘要

動態環境中的智慧型體，由於受到感知能力限制，往往感知不到環境的某些重要特徵，同時，採取動作後有時也會得不到預期效果。在這種局部可觀測、隨機的系統中如何獲取智慧型體的最優策略，即不確定性環境下的規劃問題，是人工智慧領域研究的重要問題。常用的解決該問題的途徑為首先對系統建模，進而根據模型對問題求解。預測狀態表示（PSR）是對系統建模的重要方法，相比局部可觀測馬爾科夫模型（POMDP），具有易學習、不易陷入局部極小點等諸多優勢，近年來，得到越來越多的關注和重視。本項目主要研究了系統預測狀態表示模型的獲取和套用，項目開展過程中，主要研究了以下內容：1、提出了系統狀態空間劃分方式，實現了子模型的獲取，完成了整個PSR模型的構建，並證明了相關方法理論正確性；2、利用Monte-Carlo Tree Search在大規模空間搜尋解決方案的優勢，通過提出模型熵的概念，並以模型熵為引導，將系統檢驗核的發現問題轉換為動作決策問題，實現了較大規模系統PSR模型的建立；3、譜方法（Spectral Method）是當前系統PSR模型獲取的主要方法，但在構建獲取系統PSR模型的Hankel矩陣時，不同檢驗的集合（列向量）往往導致不同的獲取模型精度，通過分析模型熵與模型精度之間的關係，進而通過模型熵確定相應的檢驗集合，實現了利用譜方法在獲取系統PSR模型時預測精度的提高；4、針對獲取系統整體模型存在的困難，研究了如何僅針對感興趣的事件預測的方案，提出了通過建立系統的MDP模型，實現對感興趣事件的預測，並進一步根據模型熵研究了如何提高模型的精度；5、實際套用中，獲取的模型很難完全準確，但現有基於模型的規劃，往往假定模型完全準確，本項目研究了模型不準確的情況下，如何獲取智慧型體的規劃策略問題；6、研究了其它方法，例如alternating direction method of multipliers （ADMM），在獲取系統PSR模型中的套用。通過項目的開展，實現了研究預期中較大規模系統（PocMan, 吃豆人）PSR模型的獲取，探討了基於不準確模型的智慧型體的決策方案，發表了多項高水平成果，為進一步的研究奠定了堅實基礎。

預測狀態表示中狀態空間劃分機制及套用研究

基本介紹

項目摘要

結題摘要

相關詞條

熱門詞條