基於核的增強學習與近似動態規劃方法研究

中文摘要

增強學習(reinforcement learning)是來源於人腦自評價(adaptive critic)學習機制的一類學習控制方法，在複雜系統的最佳化控制方面有廣泛的套用前景,並且與運籌學的近似動態規劃理論密切結合，近年來成為機器學習與智慧型系統的研究熱點。本項目針對連續空間馬氏決策過程的最佳化控制問題，以基於核的自適應評價增強學習與近似動態規劃方法為主要研究內容，重點解決：增強學習中實現連續狀態與行為空間值函式逼近的核方法及其快速稀疏化算法；基於核的近似動態規劃理論框架，包括基於核的啟發式動態規劃HDP、對偶啟發式規劃DHP等最佳化控制新方法；以及增強學習與近似動態規劃中能夠結合先驗信息的核函式構造與模型選擇理論與方法等。本項目的成果將能夠有效解決現有理論方法面臨的算法收斂性和提高泛化性能等挑戰問題，推動增強學習與近似動態規劃在實際大規模最佳化控制問題中的套用。

基於核的增強學習與近似動態規劃方法研究

基本介紹

相關詞條

熱門詞條