馬爾可夫決策過程引論

馬爾可夫決策過程引論

馬爾可夫決策過程引論是基於馬爾可夫過程理論的隨機動態系統的最優決策過程。馬爾可夫決策過程是序貫決策的主要研究領域。它是馬爾可夫過程與確定性的動態規劃相結合的產物,故又稱馬爾可夫型隨機動態規劃,屬於運籌學中數學規劃的一個分支。

基本介紹

  • 書名:馬爾可夫決策過程引論
  • 作者:胡奇英,劉建庸
  • ISBN:9787560608303
  • 類別:圖書 > 科學與自然 > 數學
  • 頁數:273
  • 出版社:西安電子科技大學出版社
  • 出版時間:2000-07-01
  • 裝幀:平裝
  • 開本:32開
  • 版次:1
內容簡介,發展概況,數學描述,

內容簡介

馬爾可夫決策過程是研究隨機環境下多階段決策過程最佳化問題的理論工具,在過去的幾十年中,隨著生態科學、經濟理論、通訊工程以及眾多學科中需要考慮不確定因素和序列決策問題的大量新模型的湧現,進一步刺激了馬爾可夫決策過程在理論上和套用領域中長足發展。本書從簡單的例子開始,介紹了馬爾可夫決策過程的基本概念、決策過程以及一些常用的基本理論。還介紹了多種最優準則,包括有限階段準則、折扣準則、平均準則、權重報酬準則、機率準則等。從模型角度考慮了有限狀態空間、可數狀態空間和一般Borel狀態空間;從決策時間上來說,考慮了離散時間、連續時間和半馬氏決策時刻問題。本文還介紹了大量的套用實例以及建模方法。本書可作為高年級大學和研究生教材,也可作為運籌學、管理科學、信息科學、系統科學以及計算機科學和工程領域的學者和技術人員的參考書。
馬爾可夫決策過程引論

發展概況

50年代R.貝爾曼研究動態規劃時和L.S.沙普利研究隨機對策時已出現馬爾可夫決策過程的基本思想。R.A.霍華德(1960)和D.布萊克韋爾(1962)等人的研究工作奠定了馬爾可夫決策過程的理論基礎。1965年,布萊克韋爾關於一般狀態空間的研究和E.B.丁金關於非時齊(非時間平穩性)的研究,推動了這一理論的發展。1960年以來,馬爾可夫決策過程理論得到迅速發展,套用領域不斷擴大。凡是以馬爾可夫過程作為數學模型的問題,只要能引入決策和效用結構,均可套用這種理論。

數學描述

周期地進行觀察的馬爾可夫決策過程可用如下五元組來描述:{S,(A(i),i∈S,q,γ,V},其中S 為系統的狀態空間(見狀態空間法); A(i)為狀態i(i∈S)的可用行動(措施,控制)集;q為時齊的馬爾可夫轉移律族,族的參數是可用的行動;γ是定義在Γ(Г呏{(i,ɑ):a∈A(i),i∈S}上的單值實函式;若觀察到的狀態為i,選用行動a,則下一步轉移到狀態 j的機率為q(j│i,ɑ),而且獲得報酬γ(j,ɑ),它們均與系統的歷史無關;V是衡量策略優劣的指標(準則)。

相關詞條

熱門詞條

聯絡我們