基於重要性採樣的並行離策略強化學習方法研究

基於重要性採樣的並行離策略強化學習方法研究

《基於重要性採樣的並行離策略強化學習方法研究》是依託蘇州科技大學,由傅啟明擔任項目負責人的青年科學基金項目。

基本介紹

  • 中文名:基於重要性採樣的並行離策略強化學習方法研究
  • 項目類別:青年科學基金項目
  • 項目負責人:傅啟明
  • 依託單位:蘇州科技大學
項目摘要,結題摘要,

項目摘要

近年來,離策略強化學習方法逐漸成為強化學習領域的一個研究熱點。相對於在策略強化學習方法,從理論分析的角度,離策略方法的收斂性分析更為複雜,然而從實際套用的角度,離策略方法的研究將極大推動強化學習在實踐中的套用。本項目主要圍繞近似離策略強化學習理論及套用展開研究,工作主要分為以下四個方面:(1)利用帶權重要性採樣方法構建可用於處理離策略樣本數據的值函式參數更新規則,提出一種基於帶權重要性採樣的離策略強化學習算法;(2)從理論上證明所提出參數更新規則能夠保證離策略評估與在策略評估的一致性;(3)結合所提出的離策略強化學習算法,構建一種可用於實時控制的並行離策略強化學習框架;(4)將所提出的並行離策略強化學習框架用於實際的建築節能問題,求解最優節能策略,實現建築內相關設備的實時線上控制。因此,通過上述研究,將在一定程度上促進強化學習理論的發展,同時有效地解決離策略強化學習方法在實踐中的套用難題。

結題摘要

目前,強化學習已經成為機器學習領域的一個重要研究方向,強化學習在理論和套用兩個方面都取得較大的進展,其中大部分的工作主要集中於在策略強化學習方法的研究,而隨著強化學習理論的進一步完善以及套用的進一步擴展,離策略強化學習方法逐漸成為強化學習領域的熱點和難點。相對於在策略強化學習方法理論研究,目前離策略強化學習方法的理論研究仍不是很完善,大部分離策略強化學習的理論研究主要針對一些特定的算法,且很多離策略強化學習方法的性能分析仍處於實驗分析階段,缺乏針對通用離策略方法的理論研究成果。同時,在具體的仿真或者實際問題中,離策略強化學習方法的收斂性能通常低於在策略強化學習方法,且難以將離策略強化學習方法用於一些實時性要求較高的問題。本項目主要圍繞近似離策略強化學習理論及套用展開研究,工作主要分為以下幾個方面:(1)研究離策略場景下的強化學習值函式更新規則,並從理論上證明其有效性。(2)構建一種可用於實時控制的並行離策略強化學習框架,並行評估行為策略及多個目標策略,並在學習過程中通過“選擇”、“ 交叉”及“變異”操作重構“策略池”,提高策略評估的效率。此外,通過將策略評估執行緒與動作執行執行緒相分離,提高動作執行的實時性。(3)提出一種基於生成對抗網路的強化學習算法,在訓練初期,通過隨機策略收集經驗樣本構成真實樣本池,並利用所收集的經驗樣本訓練生成對抗網路,然後利用生成對抗網路生成新的樣本構成虛擬樣本池,結合真實樣本池以及虛擬樣本池批量選擇訓練樣本,以此來提高學習速度。同時,提出關係修正單元,結合深度神經網路,訓練真實樣本池中樣本的狀態、動作與後續狀態、獎賞之間的內部聯繫,結合相對熵最佳化生成對抗網路,提高生成樣本的質量。(4)將所提出的並行離策略強化學習方法用於實際的建築節能問題,求解最優節能策略。本項目的研究不僅具有一定的理論意義,同時對強化學習在實踐中的套用具有一定的指導意義。

相關詞條

熱門詞條

聯絡我們