部分可觀察馬爾可夫決策過程(Partially Observable Markov Decision Process,縮寫:POMDP),是一種通用化的馬爾可夫決策過程。
基本介紹
- 中文名:部分可觀察馬可夫決策過程
- 外文名:Partially Observable Markov Decision Process
簡介,馬可夫決策過程,馬爾可夫鏈,參見,
簡介
部分可觀察馬爾可夫決策過程(Partially Observable Markov Decision Process,縮寫:POMDP),是一種通用化的馬爾可夫決策過程。POMDP模擬代理人決策程式是假設系統動態由MDP決定,但是代理人無法直接觀察目前的狀態。相反的,它必須要根據模型的全域與部分區域觀察結果來推斷狀態的分布。
馬可夫決策過程
在機率論和統計學中,馬可夫決策過程(英語:Markov Decision Processes,縮寫為 MDPs)提供了一個數學架構模型,用於面對部分隨機,部分可由決策者控制的狀態下,如何進行決策,以俄羅斯數學家安德雷·馬爾可夫的名字命名。在經由動態規劃與強化學習以解決最佳化問題的研究領域中,馬可夫決策過程是一個有用的工具。
馬爾可夫過程在機率論和統計學方面皆有影響。一個通過不相關的自變數定義的隨機過程,並(從數學上)體現出馬爾可夫性質,以具有此性質為依據可推斷出任何馬爾可夫過程。實際套用中更為重要的是,使用具有馬爾可夫性質這個假設來建立模型。在建模領域,具有馬爾可夫性質的假設是向隨機過程模型中引入統計相關性的同時,當分支增多時,允許相關性下降的少有幾種簡單的方式。
馬爾可夫鏈
馬爾可夫鏈(英語:Markov chain),又稱離散時間馬爾可夫鏈(discrete-time Markov chain,縮寫為DTMC),因俄國數學家安德烈·馬爾可夫(俄語:Андрей Андреевич Марков)得名,為狀態空間中經過從一個狀態到另一個狀態的轉換的隨機過程。該過程要求具備“無記憶”的性質:下一狀態的機率分布只能由當前狀態決定,在時間序列中它前面的事件均與之無關。這種特定類型的“無記憶性”稱作馬爾可夫性質。馬爾科夫鏈作為實際過程的統計模型具有許多套用。
在馬爾可夫鏈的每一步,系統根據機率分布,可以從一個狀態變到另一個狀態,也可以保持當前狀態。狀態的改變叫做轉移,與不同的狀態改變相關的機率叫做轉移機率。隨機漫步就是馬爾可夫鏈的例子。隨機漫步中每一步的狀態是在圖形中的點,每一步可以移動到任何一個相鄰的點,在這裡移動到每一個點的機率都是相同的(無論之前漫步路徑是如何的)。