部分可觀察馬爾可夫決策過程

部分可觀察馬爾可夫決策過程

部分可觀察馬爾可夫決策過程(Partially Observable Markov Decision Process,縮寫:POMDP),是一種通用化的馬爾可夫決策過程。POMDP模擬智慧型體決策程式是假設系統動態由MDP決定,但是智慧型體無法直接觀察目前的狀態。相反的,它必須要根據模型的全域與部分區域觀察結果來推斷狀態的分布。

因為POMDP架構的通用程度足以模擬不同的真實世界的連續過程,套用於機器人導航問題、機械維護和不定性規劃。架構最早由研究機構所建立,隨後人工智慧自動規劃社群繼續發展。

基本介紹

  • 中文名:部分可觀察馬爾可夫決策過程
  • 外文名:Partially Observable Markov Decision Process
定義,近似POMDP解決方案,討論,

定義

離散時間POMDP模擬代理與其環境之間的關係。 形式上,POMDP是7元組
,其中
是一組狀態,
是一組動作,
是狀態之間的一組條件轉移機率,
是獎勵函式。
是一組觀察,
是一組條件觀察機率,
是折扣因子。
在每個時間段,環境處於某種狀態
.The agent在A中採取動作
,這會導致轉換到狀態
的環境機率為
。同時,代理接收觀察
,它取決於環境的新狀態,機率為
。最後,代理接收獎勵
等於
。然後重複該過程。目標是讓代理人在每個時間步驟選擇最大化其預期未來折扣獎勵的行動:
。折扣係數
決定了對更遠距離的獎勵有多大的直接獎勵。當
時,代理人只關心哪個動作會產生最大的預期即時獎勵;當
時,代理人關心最大化未來獎勵的預期總和。

近似POMDP解決方案

在實踐中,POMDP通常在計算上難以解決,因此計算機科學家已經開發了近似POMDP解決方案的方法。基於格線的算法包括一種近似解決方案技術。 在該方法中,針對置信空間中的一組點計算值函式,並且使用內插來確定針對不在該組格線點中遇到的其他信念狀態採取的最優動作。 最近的工作利用了採樣技術,泛化技術和問題結構的利用,並將POMDP解決擴展到具有數百萬個州的大型域。例如,基於點的方法對隨機可達信念點進行抽樣,以將規劃約束到信念空間中的相關區域。還探索了使用PCA降低尺寸的方法。

討論

由於代理不直接觀察環境的狀態,因此代理必須在真實環境狀態的不確定性下做出決策。然而,通過與環境互動並接收觀察,代理可以通過更新當前狀態的機率分布來更新其對真實狀態的信念。這種性質的結果是最佳行為通常可能包括信息收集行動,這些行動純粹是因為它們改善了代理人對當前狀態的估計,從而使其能夠在未來做出更好的決策。
將上述定義與馬爾可夫決策過程的定義進行比較是有益的。 MDP不包括觀察集,因為代理總是確切地知道環境的當前狀態。或者,通過將觀察組設定為等於狀態組並定義觀察條件機率以確定性地選擇對應於真實狀態的觀察,可以將MDP重新表述為POMDP。

相關詞條

熱門詞條

聯絡我們