基本介紹
- 中文名:哈密頓-雅可比-貝爾曼方程
- 外文名:Hamilton-Jacobi-Bellman equation
簡介,最佳控制的問題,微分方程,方程推導,相關條目,
簡介
哈密頓-雅可比-貝爾曼方程(Hamilton-Jacobi-Bellman equation,簡稱HJB方程)是一個偏微分方程,是最優控制的核心。HJB方程式的解是針對特定動態系統及相關代價函式下,有最小代價的實值函式。
HJB方程的基礎是以1950年代由理察·貝爾曼及其同仁提出的動態規劃。對應的離散系統方程式一般稱為貝爾曼方程。在連續時間的結果可以視為由卡爾·雅可比及威廉·哈密頓提出,經典力學中哈密頓-雅可比方程的延伸。
最佳控制的問題
考慮在時間 內,以下確定系統最佳控制的問題:
其中C[ ]為標量成本函式,D[ ]為計算其最終狀態時效力時或經濟值的函式,x(t)為系統狀態向量,x(0)假設已知,及u(t)是想要求得的控制向量,在 0≤t≤T。
此系統也需滿足下式:
其中F[ ]可以根據狀態向量決定向量後續的變化。
微分方程
對於一個簡單系統,哈密頓-雅可比-貝爾曼微分方程是:
它的邊界條件是:
這裡的 指 關於時間變數 的導數, 表示向量a,b的點乘, 是 關於變數 的梯度。
在上述微分方程中,未知標量 被稱為貝爾曼價值函式,代表了系統從時間 時的狀態開始,按照最優路徑控制,直到時間 時的價值消耗。
方程推導
我們可以這樣得到HJB方程。
如果 是一個代價函式(或者稱其為貝爾曼價值函式),那么根據理察·貝爾曼的最優性原理,從時間t到t+dt,我們可以得到:
我們可以注意到,對右邊公式第一項做泰勒展開,可以得到:
這裡的 表示在泰勒展開中,高於1階的無窮小量。如果兩邊同時消去 ,同時除去dt,當dt趨向於0時,對式子取極限,我們就能得到哈密頓-雅可比-貝爾曼(HJB)方程。
相關條目
- 貝爾曼方程,離散的哈密頓-雅可比-貝爾曼方程。
- Pontryagin最小值定理,是將哈密頓量最小值,是最佳化必要但不充分的條件,和哈密頓-雅可比-貝爾曼方程相比的好處是只要考慮滿足條件的單一軌跡。