單目標隨機性序貫決策

單目標隨機性序貫決策是只有一個目標函式且狀態是隨機轉移的序貫決策。如商店中每月末都要檢查各種商品的庫存量,以便決定下個月的進貨量。現在只考慮其中一種商品,並假設每月只進一次貨,這就是一個序貫決策問題。理想的情況是,該種商品月底的庫存量加上下月的進貨量正好與下月的銷售量相等。由於銷售量主要取決於市場,它是隨機性的,理想情況很難實現。

目標函式(即損失函式)是純量函式,要求在一段時間內的期望損失為極小。隨機性序貫決策問題與確定性序貫決策問題的主要區別是,前者的狀態是隨機轉移的,當決策給定時,它形成一個隨機過程,常見的有馬爾可夫過程。離散的馬爾可夫過程稱為馬爾可夫鏈,相應的決策問題稱為馬爾可夫決策問題。

相關詞條

熱門詞條

聯絡我們