基於模糊邏輯的大規模強化學習理論及方法

基於模糊邏輯的大規模強化學習理論及方法

《基於模糊邏輯的大規模強化學習理論及方法》是依託蘇州大學,由劉全擔任項目負責人的面上項目。

基本介紹

  • 中文名:基於模糊邏輯的大規模強化學習理論及方法
  • 項目類別:面上項目
  • 項目負責人:劉全
  • 依託單位:蘇州大學
項目摘要,結題摘要,

項目摘要

本項目針對在解決大規模強化學習問題時存在的維數災問題,提出基於一型和二型模糊邏輯的強化學習方法。主要思想是將強化學習方法與一型、二型模糊邏輯和神經網路相結合,構建可用於大規模強化學習問題的神經模糊強化學習模型:⑴使用雙層模糊推理系統或基於神經元的模糊推理系統對狀態空間進行特徵表示,可以有效的減少狀態維數,加快強化學習算法的收斂速度;⑵構建基於二型模糊推理的二型模糊強化學習模型,進一步提高算法處理不確定性的能力以及對噪聲干擾的魯棒性;⑶採用交叉熵最佳化方法最佳化模糊強化學習模型的隸屬度函式參數,以提高Q值函式的精確性。⑷將所構建的幾個模糊強化學習系統用於大規模Deep Web網路信息搜尋中,解決由於狀態空間的高維性及語義信息的不確定性引起的Deep Web搜尋中收斂速度慢甚至無法收斂的問題。

結題摘要

本項目針對在解決大規模強化學習在解決問題時存在的“維數災”問題,提出基於一型和二型模糊邏輯的強化學習方法並套用於現實環境中。主要完成的工作包括:⑴使用雙層模糊推理系統或基於神經元的模糊推理系統對狀態空間進行特徵表示,提出了帶資格跡的雙層模糊狀態知識表示方法並構造出二型模糊推理的模糊推理器,通過知識表示和推理,不僅可以提高算法的收斂速度,還可以用於獲取連續行為策略;⑵構建二型模糊推理的二型模糊強化學習模型,並證明了二型模糊邏輯在處理模糊性的能力方面要高於一型模糊邏輯,使用該推理器,在提高效率的同時,還可以增強對噪聲干擾的魯棒性;⑶採用交叉熵最佳化方法最佳化模糊強化學習模型的隸屬度函式參數,先根據隨機初始化的隸屬度函式獲得收斂的策略後,在使用此策略進行蒙特卡羅採樣,以提高Q值函式的精確性。⑷在設計實現上述理論及最佳化算法的基礎上,實現了系統原型,並套用於大規模Deep Web網路信息搜尋中,解決由於狀態空間的高維性及語義信息的不確定性引起的Deep Web搜尋中收斂速度慢甚至無法收斂的問題。 該項目取得的重要結果包括以下幾個方面: (1) 將強化學習方法與模糊推理系統及神經元相結合。理論研究成果以論文及專利的形式發表。(2) 設計實現具有較高效率的基於新型模糊推理系統和神經模糊系統的強化學習仿真平台,並套用於Deep Web信息搜尋中。(3) 在國際學術刊物、國際學術會議和國內權威期刊發表學術論文29篇,其中被SCI、EI收錄20篇,撰寫專著1部。 (4) 申報發明專利3項,申請軟體著作權5項。(5) 培養博士研究生3名。畢業博士研究生1名、碩士研究生6名。

相關詞條

熱門詞條

聯絡我們