面向tableau模型的邏輯強化學習理論及方法研究

項目摘要

典型的強化學習算法採用狀態- - 活動對來表示行為策略，因而不可避免地出現學習參數個數隨著狀態變數維數呈指數級增長的現象，即維數災，這一問題嚴重製約著強化學習在實際中的套用。本項目擬針對強化學習中存在維數災的問題，提出面向tableau模型的邏輯強化學習方法，並套用於Deep Web信息搜尋中。主要思想是將強化學習與歸納邏輯程式設計相結合，採用邏輯語言表示狀態和活動等方面的知識，使用tableau模型簡化狀態空間，達到更大程度地提高強化學習算法收斂速度的目的。因此面向tableau模型的邏輯強化學習的研究，可以有效地解決強化學習中的維數災的問題，對於強化學習在大規模網路信息搜尋中的套用，既具有一定的理論價值，又有廣闊的套用前景。

結題摘要

本項目針對強化學習中存在“維數災”的問題，提出基於tableau模型的邏輯強化學習方法，並套用於Deep Web信息搜尋中。主要完成了以下五方面內容： ⑴ 將強化學習與歸納邏輯程式設計相結合，對強化學習算法中的狀態、活動用邏輯表達式進行抽象。充分利用歸納邏輯程式設計語言的謂詞、表、截斷等的優勢，建立起強化學習狀態之間的邏輯關係，簡化活動策略的選擇，提高強化學習的收斂速度。 ⑵ 採用tableau推理模型對邏輯狀態和邏輯活動進行建模，研究一種新的函式估計模型，使其一方面能夠以任何精度逼近理論的強化學習值函式，另一方面在增量環境中保證收斂性。 ⑶ 將布爾剪枝、IP-tableau等方法與邏輯強化學習相結合，對邏輯狀態空間模型進行相應的等價轉換，採用解線性方程組的方式來簡化狀態空間，降低狀態空間維數，解決大規模、連續的MDP問題。在tetris問題中，試驗所設計的強化學習框架和算法，並對比收斂速度。 ⑷ 結合我們所研究的模型和算法，研究一種面向Deep Web搜尋引擎的自適應爬蟲搜尋算法。在模型不確定的情況下，尋找滿足搜尋算法的最佳化目標的最優策略，達到爬蟲總搜尋路徑最短、搜尋無關頁面最低等，並在性能上對比目前常用的幾種爬蟲調度算法。 ⑸ 設計實現上述理論、最佳化算法的系統原型，並套用於Deep Web搜尋引擎中，實現對Deep Web搜尋的策略最佳化。

面向tableau模型的邏輯強化學習理論及方法研究

基本介紹

項目摘要

結題摘要

相關詞條

熱門詞條