馬爾可夫決策規劃

馬爾可夫決策規劃

馬爾可夫決策規劃（Markov decision programming）是1993年公布的數學名詞。

基本介紹

中文名：馬爾可夫決策規劃
外文名：Markov decision programming
所屬學科：數學
公布時間：1993年

公布時間,出處,

公布時間

1993年，經全國科學技術名詞審定委員會審定發布。

出處

《數學名詞》第一版。

相關詞條

馬爾可夫決策規劃
馬爾可夫決策規劃（Markov decision programming）是1993年公布的數學名詞。公布時間1993年，經全國科學技術名詞審定委員會審定發布。出處《數學名詞》第一版。1...
馬爾可夫決策過程
模糊馬爾可夫決策過程模糊馬爾可夫決策過程（Fuzzy MDP, FMDP）是使用模糊動態規劃（fuzzy dynamic programming）求解的MDP模型，是MDP的推廣之一。FMDP的求解方法屬於值函式算法，其中策略評估部分與傳統的動態規劃方法相同，但策略改進部分使用...
決策策略選擇
目標選擇的動態性在動態武器目標分配問題和軍事行動規劃問題中得到研究。蔡懷平等研究了動態武器目標分配問題中的馬爾科夫性，解武傑等將馬爾可夫過程用於分析防空武器目標選擇策略; Boutilier 等在馬爾科夫決策過程(Markov Decision Process，...
部分可觀察馬可夫決策過程
在經由動態規劃與強化學習以解決最佳化問題的研究領域中，馬可夫決策過程是一個有用的工具。馬爾可夫過程在機率論和統計學方面皆有影響。一個通過不相關的自變數定義的隨機過程，並（從數學上）體現出馬爾可夫性質，以具有此性質為依據可...
馬爾可夫鏈:模型、算法與套用
第5章客戶終身價值的馬爾可夫決策過程 5.1引言 5.2客戶行為的馬爾可夫鏈模型 5.2.1轉移機率的估計 5.2.2保留機率與客戶終身價值 5.3隨機動態規劃模型 5.3.1無窮視野無約束 5.3.2有限視野硬約束 5.3.3無窮視野有約束 5.4...
決策科學
這類方法又可分為規劃類方法與非規劃類方法。前者包括線性規劃、非線性規劃、動態規劃、整數規劃等，非規劃方法包括庫存理論、計畫評審技術、網路規劃技術及決策網路、馬爾可夫決策、排隊論等。確定型決策方法近年受到一些非議，原因是大量...
貝葉斯序貫決策函式
對於這類系統的序貫決策研究得較完滿的是狀態轉移律具有無後效性的系統，相應的序貫決策稱為馬爾可夫決策過程，它是將馬爾可夫過程理論與決定性動態規劃相結合的產物。②系統下一步可能出現的狀態的機率分布不知道，只能用主觀機率的條件分布...
折扣模型
折扣模型是採用折扣指標的馬爾可夫決策過程。考慮到決策者對時間的偏好，未來的損失(或收益)和等額的損失(或收益)對決策者產生的影響是不完全相同的。在許多經濟問題中，決策者對現在的損失(或收益)實際上比對未來的損失(或收益)看得更...
劉建庸
(1993) "隨機折扣部分可觀察馬爾可夫決策規劃", 系統科學與數學, 13(2):152-159.(1993) "無限時段部分可觀察馬爾可夫決策規劃", Appl. J. Chinese Uni.,8(2):208-221.(1992) "Optimal Policies about Discounted Vector-valued ...
平均模型
平均模型是採用平均指標的馬爾可夫決策過程。除了折扣指標以外，衡量策略優劣的常用指標還有平均指標，它是指單位時間的平均期望報酬。已經證明：當用來描述馬爾可夫決策過程的狀態空間和狀態的可用行動集合均為有限集合時，對於平均指標來說，...
策略疊代法
對於範圍很廣的一類馬爾可夫決策過程，其動態規劃基本方程可以寫成式中ƒ∈V，對所有 γ∈Γ:r(γ)∈V，γ為 V→V的線性運算元，Γ為這種運算元的族，而V 則是由指標值函式所構造的函式空間。假設當 ƒ(γ)是方程 r(γ)+γ...
運籌學(2009年機械工業出版社出版的圖書)
11.3 風險型決策 11.3.1 期望值準則 11.3.2 決策樹法 11.3.3 貝葉斯決策 11.4 效用理論 11.4.1 效用的概念 11.4.2 效用曲線的繪製 11.4.3 效用曲線的類型 11.4.4 效用曲線的套用 11.5 馬爾可夫決策 11.5.1 ...
機率圖模型原理與套用(第2版)
10.5.1 肺癌的決策支持系統 184 10.5.2 決策理論看護人 187 10.6 補充閱讀 189 10.7 練習 190 第11章 馬爾可夫決策過程 191 11.1 引言 191 11.2 建模 191 11.3 評估 194 11.3.1 值疊代 195 11.3.2 ...
運籌學教程(第2版)
11.3 風險型決策 11.3.1 期望值準則 11.3.2 決策樹法 11.3.3 貝葉斯決策 11.4 效用理論 11.4.1 效用的概念 11.4.2 效用曲線的繪製 11.4.3 效用曲線的類型 11.4.4 效用曲線的套用 11.5 馬爾可夫決策 11.5.1 ...
強化學習(2018年機械工業出版社出版的圖書)
1.3.1　馬爾可夫決策過程 7 1.3.2　策略 9 1.3.3　準則和減量 9 1.4　價值函式和貝爾曼方程 10 1.5　求解馬爾可夫決策過程 12 1.6　動態規劃：基於模型的解決方案 13 1.6.1　基本的動態規划算法 13 1.6.2...
運籌學(高等院校精品課程系列教材·運籌學)
11.3 風險型決策 11.3.1 期望值準則 11.3.2 決策樹法 11.3.3 貝葉斯決策 11.4 效用理論 11.4.1 效用的概念 11.4.2 效用曲線的繪製 11.4.3 效用曲線的類型 11.4.4 效用曲線的套用 11.5 馬爾可夫決策 11.5.1 ...
隨機運籌學
第4章馬爾可夫決策過程 4．1單階段決策 4．2多階段動態決策(動態規劃)4．2．1動態決策的模型 4．2．2最優性原理 4．2．3供應鏈中的nash談判 4．3馬爾可夫決策過程：有限階段 4．3．1模型 4．3．2最優方程與最優策略 4．3...
水庫水電站中長期隱隨機最佳化調度
自1957年提出動態規劃原理及1960年出現馬爾可夫決策方法後，最佳化思想在水庫水電站調度領域大規模興起。在離散精度足夠高的前提下，動態規劃模型能夠得到最佳化調度的全局最優解。但是隨著模型中水庫個數的增加，動態規劃面臨著嚴重的“維數災”...
強化學習(2020年清華大學出版社出版的圖書)
1.3.1學習與規劃 1.3.2探索與利用 1.3.3預測與控制 1.4小結 1.5習題第2章馬爾可夫決策過程 2.1馬爾可夫基本概念 2.1.1馬爾可夫性 2.1.2馬爾可夫過程 2.1.3馬爾可夫決策過程 2.2貝爾曼方程 2.2.1貝爾曼期望方程 2.2....
貝爾曼方程
⑤許多數學規劃問題均可用動態規劃方法來解決，例如，含有隨時間或空間變化的因素的經濟問題。投資問題、庫存問題、生產計畫、資源分配、設備更新、最優搜尋、馬爾可夫決策過程，以及最優控制和自適應控制等問題，均可用動態規劃方法來處理。...
認知行為思維模型
10.3　Brown蛇測度值馬爾可夫思維過程模型 100 10.3.1　半直線上反射Brown 運動 100 10.3.2　基礎空間上馬爾可夫思維過程 101 10.3.3　Brown蛇 101 10.3.4　靈感和Brown蛇測度值過程 102 10.3.5　進一步意識思維規劃 104...
面向計算機生成兵力的意圖識別方法研究
主要研究內容包括：分析識別對象的路徑規劃、戰術策略和協同關係；基於邏輯隱馬爾可夫模型和決策/規劃理論的意圖識別建模方法；仿真場景中的領域知識提取與形式化表示；模型實驗設計與評價指標。本項目的研究成果將顯著提高CGF的認知水平和決策...

熱門詞條

聯絡我們