序貫決策是指按時間順序排列起來,以得到按順序的各種決策(策略),是用於隨機性或不確定性動態系統最最佳化的決策方法。
基本介紹
- 中文名:序貫決策
- 外文名:Sequential Decision
- 別名:動態決策法
- 學科:運籌學
- 隸屬:序貫決策分析
- 特點:無後效性、多階段性、預測性等
基本概念
特點
- 無後效性。序貫決策是前一階段決策方案的選擇,直接影響到後一階段決策方案的選擇,後一階段決策方案的選擇取決於前一階段決策方案的結果。
- 多階段性。序貫決策具有在時間上有先後之別的多階段決策。決策者關心的是多階段決策的總結果,而不是各階段的當即結果。
- 預測性。決策的實施是對各採用的多種可行方案進行比較,擇其最優。序貫決策若對各種可行方案的前景加以預測,在預測的結果中會顯示出最優可行方案。
- 條件性。序貫決策是根據最優性原理求解,問題是所涉及的過程都要滿足一定的條件,即馬爾柯夫性。也就是利用轉移機率矩陣和相應的利潤矩陣對不同方案在作出預測的基礎上進行決策。
- 連續性。每個階段所面臨的狀態,帶有各自的不確定性,需要對每一個階段作出決策,下一個階段決策是在前一個階段決策基礎上再進行決策,這樣連續進行,形成一序列方案。
過程
- 系統下一步可能出現的狀態的機率分布是已知的,可用客觀機率的條件分布來描述。對於這類系統的序貫決策研究得較完滿的是狀態轉移律具有無後效性的系統,相應的序貫決策稱為馬爾可夫決策過程,它是將馬爾可夫過程理論與決定性動態規劃相結合的產物。
- 系統下一步可能出現的狀態的機率分布不知道,只能用主觀機率的條件分布來描述。用於這類系統的序貫決策屬於決策分析的內容。