平均模型

平均模型是採用平均指標的馬爾可夫決策過程。除了折扣指標以外,衡量策略優劣的常用指標還有平均指標,它是指單位時間的平均期望報酬。已經證明:當用來描述馬爾可夫決策過程的狀態空間和狀態的可用行動集合均為有限集合時,對於平均指標來說,存在最優的確定性平穩策略;當狀態空間和狀態的可用行動集合不是有限集合時,必須增加某些條件,才存在最優的確定性平穩策略。

基本介紹

現在已經研製出計算這種最優策略的算法,其中的一個主要算法就是策略疊代算法。即先從決策函式集合中任取一個決策函式,作策略求值運算,然後作策略改進運算,經過有限次的疊代,必然終止於一個最優的平穩策略。計算最優策略的其他算法還有線性規划算法和逐次逼近算法。

相關詞條

熱門詞條

聯絡我們