基於支持向量機的增量式強化學習技術及其套用研究

基於支持向量機的增量式強化學習技術及其套用研究

《基於支持向量機的增量式強化學習技術及其套用研究》是依託蘇州大學,由伏玉琛擔任項目負責人的面上項目。

基本介紹

  • 中文名:基於支持向量機的增量式強化學習技術及其套用研究
  • 項目類別:面上項目
  • 項目負責人:伏玉琛
  • 依託單位:蘇州大學
項目摘要,結題摘要,

項目摘要

本項目針對連續狀態空間的維數災問題,提出利用支持向量核方法對連續狀態空間強化學習問題進行建模並逼近所建模型。主要思想是結合機器學習中最具發展前景的核方法來解決強化學習問題,結合了支持向量核方法的強化學習系統,學習過程與人類更加的相似,以自學習為主導、監督學習為輔助,相互配合從而更好的解決複雜問題。首先利用核方法對原輸入空間複雜問題進行非線性建模,然後利用核函式機制將輸入空間非線性問題轉化到高維特徵空間中的線性問題,並巧妙避開升維所帶來的計算複雜性,這樣就可以對原輸入空間複雜問題進行精確的模型構建,同時在高維特徵空間可以高效的求解線性模型,線性模型具有很優良的泛化特性,而泛化能力正是解決連續空間強化學習問題的核心需求。因此,基於支持向量核方法的連續空間強化學習模型構建與逼近研究極富理論價值和套用前景。

結題摘要

項目組將機器學習中最具發展前景的支持向量核方法套用到強化學習問題中,採用核函式機制有效地將原輸入空間的非線性問題轉化到高維特徵空間的線性問題,建立了一套完整的問題表示、轉化和求解模型。在保證精確度的條件下,有效的提高了算法的泛化能力並降低了算法時間和空間複雜度。核方法是建立在統計學習理論基礎上,有一個強有力的理論保障體系,利用核方法可以有效處理高維、非線性以及有限樣本問題。 在連續狀態MDP中,環境的連續性狀態無法枚舉,面臨維數災難問題。強化學習線上學習系統中,樣本集構建的好壞直接決定了最終學習效果的好壞。基於核方法構建值函式的線上逼近模型,線上自適應的構建訓練樣本集,從而提高逼近模型的精度。 利用支持向量分類器來平衡強化學習中的探索和利用問題,探索和利用控制著學習過程的收斂速度和效果,有效平衡探索和利用是強化學習研究的核心問題,而支持向量機的典型套用就是二分類問題,提出利用支持向量分類器來平衡探索和利用將有效提高強化學習算法的性能。 當前強化學習的研究中,對於新模型、新算法的驗證一般基於簡單、理想的試驗,如格子世界、Mountain Car、賭徒問題等;然而在實際套用中,由於種種原因導致新模型、新算法難以套用,使得新模型、新算法在理論實驗上完美收斂,卻在實際套用中無法實現。在本項目中,將研究的模型、算法套用於面向Deep Web搜尋引擎的自適應爬蟲搜尋問題中,以驗證所研究的成果在實際大規模問題中的作用。傳統搜尋引擎爬蟲程式存在抓取信息結構不全、內容不夠細化、對歷史經驗信息無記憶性等特點,本項目結合強化學習算法,構建一個智慧型的Deep Web檢索原型,將檢索過程構造成一個MDP模型,基於支持向量核方法的連續空間強化學習算法,利用已有的檢索信息,最佳化檢索策略。與傳統方法相比,本項目所提出的爬蟲模型具有較高的查詢精度與查詢速度。

相關詞條

熱門詞條

聯絡我們