最優控制算法

最優控制算法用以定出最優控制(見最優控制理論)的具體形式的計算方法。

基本介紹

  • 中文名:最優控制算法
  • 提出者:宮錫芳著:《最優控制問題的計算方法》
  • 提出時間:1979
  • 套用學科:數學
基本介紹,基本評價,部分內容介紹,

基本介紹

極大值原理動態規劃從理論方面研究了最優控制所應遵循的方程和條件,而最優控制算法則是從計算方面來確定最優控制形式的具體方法和步驟(見最最佳化方法)。從總體上看,最優控制算法可分為間接法和直接法兩大類。對於給定的一類控制問題可由最優控制理論導出用以決定最優控制的條件和方程,可用有關的計算方法求出其解,這類方法稱為間接法。對難以定出有關最優控制的條件和方程的一類問題,須用數值方法直接求其近似解,這類方法稱為直接法。不管是間接法還是直接法,在大多數情況下,都要藉助數值求解算法。隨著電子計算機技術的發展,用數值方法求解最優控制問題變得越來越有效和廣泛,原來不可行的一些算法已逐漸成為可行。

基本評價


評價最優控制算法的兩個主要問題是:①算法的收斂性或數值穩定性,它是保證計算過程能達到正確結果的前提。②算法的計算複雜性,這對實時控制具有特別重要的意義。一個好的算法應使計算量和存儲量儘可能小,以便能由儘可能簡單的計算機來實現計算。此外,好的算法還應具有較好的數值穩定性,即計算的結果對初始數據和運算過程的誤差不過於敏感,以及處理“病態“問題的能力。典型的最優控制算法有:求解由極大值原理導出的微分或差分方程的兩點邊值問題的各種算法,對動態規劃中的貝爾曼方程進行數值求解的算法,求解線性二次型最優控制問題的黎卡提方程的各種算法,處理控制或狀態受約束問題的罰函式法,在控制策略的函式空間中利用搜尋尋優或梯度尋優技術和牛頓-拉夫森方法等直接求解非線性系統最優控制問題的算法等。其中,非線性系統的開環最優控制問題和線性二次型最優控制問題的算法套用尤多。

部分內容介紹


非線性系統的開環最優控制算法  這類控制問題的提法是,在非線性系統的狀態方程
=f(x,u,t),x(t0)=x0, t0≤t≤tf (1)
的約束下,尋找一個控制u(t)使性能指標泛函
(2)
為最小。這裡u為m維控制向量函式,x為n維狀態向量函式,f為n維向量函式,t0是起始時間,tf為終止時間。性能指標泛函中第一項積分表示與控制過程有關的指標,而第二項K則表示僅與終態和終止時間有關的指標。
對x和u的變化範圍不加限制的情形,可把非線性規劃中的共軛梯度法、變尺度法等推廣來求解上面給出的問題。其關鍵在於計算泛函J(u)對於u的梯度墷J(u):
(3)
式中
H(x,u,λ,t)=L(x,u,t)+λTf(x,u,t)  (4)
是哈密頓函式。這裡上標T表示轉置,而λ是n維伴隨向量,它滿足方程
(5)
用共軛梯度法求解上述問題的算法為
① 任選一個初始控制u0,且令i=0。
② 用ui從t0到tf求積狀態方程(1),得到xi(t),後再用ui和xi從tf到t0反向求積伴隨方程(5)以得到λi(t)。再利用ui、xi和λi計算。
③ 令 gi=H
hi=gi+βi-1hi-1
其中βi-1=/,h0=g0,而符號表示=(xT(t)y(t))dt即兩個向量(此例中為x和y)的內積。
④ 若gi=0,停止;否則進行⑤。
⑤ 用一維搜尋法求出μi>0使
J(ui+μihi)=【J(ui+μhi)|μ>0】
⑥ 在ui+1=ui+μihi中,令i改為i+1,回到②,重複進行各步。
線性二次型問題的閉環最優控制算法  這類控制問題的數學提法是,線上性狀態方程
x=Ax+Bu
的約束下,求控制u(t)使二次型性能指標泛函
J(u)=(xTQx+uTRu)dt
為最小。這裡,Q是半正定對稱矩陣,R是正定對稱矩陣。這個問題的最優控制解的表達式為
u*=-R-1BTPx
其中對稱正定矩陣P滿足黎卡提代數矩陣方程
ATP+PA-PBR-1BTP+Q=0
在這類最優控制問題的算法中,關鍵是求解矩陣P,常用的算法有四種。
① 微分方程法。反向解矩陣黎卡提微分方程
妛+ATP+PA-PBR-1BTP+Q=0, P(tf)=0
其中,則其穩態解即為所求的黎卡提代數矩陣方程的解陣。
② 哈密頓矩陣方法。構造哈密頓矩陣此矩陣的特徵值必定不包含純虛數,且若λ是特徵值,則-λ也是特徵值。 找到變換陣使得S-1HS=其中 Λ是形如的矩陣的直和,且所有的λi均大於零,則P=S21S。式中S表示S11的逆矩陣。
這種算法的另一種形式是先定出哈密頓矩陣 H的特徵值,並以具有負實部的所有特徵值為零點來組成多項式F(s)。將用H代替s後得到的矩陣多項式F(H)寫成分塊形,則P=F21F。 
這種算法的又一種形式是找到一個正交矩陣使得,其中S11的所有特徵值均具負實部,而s22的所有特徵值均具正實部,則P=U21U。 
③ 疊代解法。將黎卡提代數方程改寫為疊代形式
(A-sPi)TPi+1+Pi+1(A-sPi)=-Q-PisPi
其中s=BR-1BT,i=0,1,…。當選擇P0使矩陣A0=A-sP0的特徵值均具負實部時,此疊代方程所確定的矩陣序列P0、P1、…是單調收斂的其極限矩陣即是黎卡提代數矩陣方程的對稱正定解。
④ 符號函式方法。哈密頓矩陣H的符號函式規定為這裡H0=H,Hi+1=αiHi+(1-αi)H抶。α∈(0,1)稱為加速係數,通常將其取為由SH構成矩陣則 參考書目
宮錫芳著:《最優控制問題的計算方法》,科學出版社,北京,1979。

相關詞條

熱門詞條

聯絡我們