哈密頓-雅可比-貝爾曼方程

簡介

哈密頓-雅可比-貝爾曼方程（Hamilton-Jacobi-Bellman equation，簡稱HJB方程）是一個偏微分方程，是最優控制的核心。HJB方程式的解是針對特定動態系統及相關代價函式下，有最小代價的實值函式。

若只在某一個區域求解，HJB方程是一個必要條件，若是在整個狀態空間下求解，HJB方程是充分必要條件。其解是針對開環系統，但也允許針對閉環系統求解。HJB方程也可以擴展到隨機系統。

一些經典的變分問題，例如最速降線問題，可以用此方法求解。

HJB方程的基礎是以1950年代由理察·貝爾曼及其同仁提出的動態規劃。對應的離散系統方程式一般稱為貝爾曼方程。在連續時間的結果可以視為由卡爾·雅可比及威廉·哈密頓提出，經典力學中哈密頓－雅可比方程的延伸。

考慮在時間

內，以下確定系統最佳控制的問題：

其中C[ ]為標量成本函式，D[ ]為計算其最終狀態時效力時或經濟值的函式，x(t)為系統狀態向量，x(0)假設已知，及u(t)是想要求得的控制向量，在 0≤t≤T。

此系統也需滿足下式：

其中F[ ]可以根據狀態向量決定向量後續的變化。

對於一個簡單系統，哈密頓-雅可比-貝爾曼微分方程是：

它的邊界條件是：

這裡的

指

關於時間變數

的導數，

表示向量a，b的點乘，

是

關於變數

的梯度。

在上述微分方程中，未知標量

被稱為貝爾曼價值函式，代表了系統從時間

時的狀態開始，按照最優路徑控制，直到時間

時的價值消耗。

我們可以這樣得到HJB方程。

如果

是一個代價函式（或者稱其為貝爾曼價值函式），那么根據理察·貝爾曼的最優性原理，從時間t到t+dt，我們可以得到：

我們可以注意到，對右邊公式第一項做泰勒展開，可以得到：

這裡的

表示在泰勒展開中，高於1階的無窮小量。如果兩邊同時消去

，同時除去dt，當dt趨向於0時，對式子取極限，我們就能得到哈密頓-雅可比-貝爾曼（HJB）方程。