基本介紹
- 中文名:哈密頓-雅可比-貝爾曼方程
- 外文名:Hamilton-Jacobi-Bellman equation
簡介,最佳控制的問題,微分方程,方程推導,相關條目,
簡介
哈密頓-雅可比-貝爾曼方程(Hamilton-Jacobi-Bellman equation,簡稱HJB方程)是一個偏微分方程,是最優控制的核心。HJB方程式的解是針對特定動態系統及相關代價函式下,有最小代價的實值函式。
一些經典的變分問題,例如最速降線問題,可以用此方法求解。
HJB方程的基礎是以1950年代由理察·貝爾曼及其同仁提出的動態規劃。對應的離散系統方程式一般稱為貝爾曼方程。在連續時間的結果可以視為由卡爾·雅可比及威廉·哈密頓提出,經典力學中哈密頓-雅可比方程的延伸。
最佳控制的問題
考慮在時間
內,以下確定系統最佳控制的問題:


此系統也需滿足下式:

微分方程
對於一個簡單系統,哈密頓-雅可比-貝爾曼微分方程是:

它的邊界條件是:

這裡的
指
關於時間變數
的導數,
表示向量a,b的點乘,
是
關於變數
的梯度。







在上述微分方程中,未知標量
被稱為貝爾曼價值函式,代表了系統從時間
時的狀態開始,按照最優路徑控制,直到時間
時的價值消耗。



方程推導
我們可以這樣得到HJB方程。
如果
是一個代價函式(或者稱其為貝爾曼價值函式),那么根據理察·貝爾曼的最優性原理,從時間t到t+dt,我們可以得到:


我們可以注意到,對右邊公式第一項做泰勒展開,可以得到:

這裡的
表示在泰勒展開中,高於1階的無窮小量。如果兩邊同時消去
,同時除去dt,當dt趨向於0時,對式子取極限,我們就能得到哈密頓-雅可比-貝爾曼(HJB)方程。


相關條目
- 貝爾曼方程,離散的哈密頓-雅可比-貝爾曼方程。
- Pontryagin最小值定理,是將哈密頓量最小值,是最佳化必要但不充份的條件,和哈密頓-雅可比-貝爾曼方程相比的好處是只要考慮滿足條件的單一軌跡。