基於動態規劃的自學習控制與人機智慧型系統

項目摘要

本項目成果：在研究對象模型方面，概括了隨機最優控制與馬氏最優決策過程的三種套用上最重要、最普遍的模型即折扣指標、時間平均指標、最大最小指標模型。在理論與方法方面，提出了建立在嚴密理論基礎上的處理連續狀態與控制空間的離散化處理方法，使之可套用Q-學習進行自學習控制，提出了建立在嚴密理論基礎上的強化強化學習中的狀態集結法，一定程度上克服大系統自學習控制的維數災困難，提出了強化學習與神經網路結合的新方法以提高其效能；提出了改進的Q-學習，R-學習與H-學習方法。在套用方面，通過仿真實驗驗證了所發展的新方法在機器人路徑規劃、生物工程、庫存控制等寬廣領域內的套用效益。對其中若干套用上重要的方法，開發了專用軟體。

基於動態規劃的自學習控制與人機智慧型系統

基本介紹

相關詞條

熱門詞條