馬爾可夫決策過程

歷史

MDP的歷史可以追溯至20世紀50年代動力系統研究中的最優控制（optimal control）問題，1957年，美國學者Richard Bellman通過離散隨機最優控制模型首次提出了離散時間馬爾可夫決策過程。1960年和1962年，美國學者Ronald A. Howard和David Blackwell提出並完善了求解MDP模型的動態規劃方法。

進入1980s後，學界對MDP的認識逐漸由“系統最佳化”轉為“學習”。1987年，美國學者Paul Werbos在研究中試圖將MDP和動態規劃與大腦的認識機制相聯繫。1989年，英國學者Chris Watkins首次在強化學習中嘗試使用MDP建模。Watkins (1989)在發表後得到了機器學習領域的關注，MDP也由此作為強化學習問題的常見模型而得到套用。

定義

MDP是在環境中模擬智慧型體的隨機性策略（policy）與回報的數學模型，且環境的狀態具有馬爾可夫性質。

互動對象與模型要素

由定義可知，MDP包含一組互動對象，即智慧型體和環境：

智慧型體（agent）：MDP中進行機器學習的代理，可以感知外界環境的狀態進行決策、對環境做出動作並通過環境的反饋調整決策。
環境（environment）：MDP模型中智慧型體外部所有事物的集合，其狀態會受智慧型體動作的影響而改變，且上述改變可以完全或部分地被智慧型體感知。環境在每次決策後可能會反饋給智慧型體相應的獎勵。

按定義，MDP包含5個模型要素，狀態（state）、動作（action）、策略（policy）、獎勵（reward）和回報（return），其符號與說明在表中給出：

名稱	符號	說明
狀態狀態空間		狀態是對環境的描述，在智慧型體做出動作後，狀態會發生變化，且演變具有馬爾可夫性質。MDP所有狀態的集合是狀態空間。狀態空間可以是離散或連續的。
動作動作空間		動作是對智慧型體行為的描述，是智慧型體決策的結果。MDP所有可能動作的集合是動作空間。動作空間可以是離散或連續的。
策略		MDP的策略是按狀態給出的，動作的條件機率分布，在強化學習的語境下屬於隨機性策略。
獎勵		智慧型體給出動作後環境對智慧型體的反饋。是當前時刻狀態、動作和下個時刻狀態的標量函式。
回報		回報是獎勵隨時間步的積累，在引入軌跡的概念後，回報也是軌跡上所有獎勵的總和。

馬爾可夫決策過程

基本介紹

歷史

定義

理論與性質

轉移理論

折現

值函式

算法

值函式算法

策略搜尋算法

推廣

套用

相關詞條

熱門詞條