《面向非限定條件的演化強化學習理論與算法研究》是依託南京大學,由俞揚擔任項目負責人的面上項目。
基本介紹
- 中文名:面向非限定條件的演化強化學習理論與算法研究
- 項目類別:面上項目
- 項目負責人:俞揚
- 依託單位:南京大學
項目摘要,結題摘要,
項目摘要
強化學習是機器學習的一個重要分支領域,研究如何使智慧型體從環境互動過程中學習到最優策略以最大化累積獎賞,具有廣泛的套用前景。經典強化學習假設智慧型體處在簡單固定環境等限定條件下,然而隨著強化學習向更多套用領域拓展,智慧型體所處環境複雜多變,限定條件下的假設不再成立,經典方法難以適用。由於缺乏有效最佳化手段,經典方法向非限定條件的推廣面臨學習目標、模型表示兩方面障礙。本項目研究面向非限定條件的演化強化學習,用演化算法的最佳化能力處理這兩方面障礙,針對演化強化學習理論基礎薄弱這一關鍵問題提出一種理論分析方法;針對學習目標、模型表達上的障礙,分別提出一種直接策略最佳化演化強化學習方法、一種使用加性模型的演化強化學習方法;針對固定環境這一經典限定,整合以上工作,提出一種可跨環境的演化強化學習方法。計畫在IEEE Trans級別國際期刊和會議、國內一級學報發表論文8-10篇,申請專利2-3項,培養研究生多名。
結題摘要
本項目針對非限定條件強化學習問題,通過利用演化最佳化算法、擴展強化學習方法、發展直接策略最佳化、使用加性模型強化學習方法,提出一種可跨環境的演化強化學習方法。具體如下:1、提出了演化強化學習理論分析工具,交換分析方法,並用於多種演化最佳化算法的分析,相關工作發表在頂級國際期刊《Artificial Intelligence》(CCF A類)和重要國際期刊《IEEE Trans. EC》、《Science China: Information Sciences》,以及國際重要會議IDEAL’16、IEEE CEC’15上;2、針對以往強化學習方法面臨的策略退化、高維、約束最佳化等問題,提出了基於分類的演化強化學習方法RACOS、SRACOS,並使用序列化隨機嵌入技術,將其擴展求解高維問題,提出了Pareto多目標最佳化方法解決約束最佳化問題,並用其進行直接策略最佳化,相關工作發表在國際頂級會議AAAI、IJCAI、NIPS(CCF A類)和重要國際會議PRICAI’16、IEEE CEC’16、IEEE CEC’14上;3、提出PolicyBoost方法,使用加性模型成功擴展了強化學習模型的表達能力,並提出Napping方法解決加性模型下計算開銷大的缺陷,相關工作發表在國際重要會議AAMAS’14、AAMAS’16上;4、利用噪音對強化學習進行跨環境建模,提出了ASG框架處理開放類別檢測問題,並對策略跨環境遷移進行研究,提出自演進遷移方法,能夠通過環境遷移高效地獲得有效策略,相關工作發表在重要國際期刊《Evolutionary Computation》,國際頂級會議IJCAI’17、AAAI’14(CCF-A類)和重要國際會議PPSN’14,自演進遷移方法已申請專利。此外,基於項目成果開發了一套演化強化學習工具包。 本項目共發表論文28篇,其中國際會議21篇(包括頂級國際會議NIPS等CCF A類會議13篇);國際期刊5篇(包括一流國際期刊《Artificial Intelligence》等);國內期刊2篇;論文已被SCI、EI收錄24篇次,累計被引用280次;獲得IDEAL’16最佳論文獎;國家發明專利1項;研製了一套自主服務智慧型體原型系統。 以該項目為支撐,培養碩士研究生14名,博士研究生3名。截止目前,項目完成預期任務,達到結題指標。