基於本體的Deep Web搜尋技術

基於本體的Deep Web搜尋技術

《基於本體的Deep Web搜尋技術》是依託吉林大學,由左萬利擔任項目負責人的面上項目。

基本介紹

  • 中文名:基於本體的Deep Web搜尋技術
  • 項目類別:面上項目
  • 項目負責人:左萬利
  • 依託單位:吉林大學
項目摘要,結題摘要,

項目摘要

隨著Web信息的激增,越來越多的信息開始由靜態網頁存儲的方式向Web伺服器維護的資料庫即Deep Web轉移,與Surface Web相比,Deep Web包含的信息具有更高的質量,同時也是Web上增長速度最快的信息載體,對Deep Web的研究已是Web搜尋領域迫在眉睫的任務。.本研究綜合套用本體研究Deep Web搜尋技術。結合Focused Crawling自動發現Deep Web站點,高效收集Deep Web資料庫;準確抽取Deep Web入口表單的屬性,獲取查詢接口的模式信息;設計基於本體的模式匹配算法,指導Deep Web資料庫查詢接口的模式匹配與融合;研究多資料庫入口表單的查詢分發與自動填充,實現統一表單接口下多Deep Web資料庫的查詢;最後以統一的模式將各個Deep Web資料庫返回的不同形式查詢結果展現給用戶。基於上述技術構造某一領域Deep Web搜尋的原型系統。

結題摘要

本項目綜合套用本體研究Deep Web搜尋技術。對Deep Web搜尋問題進行了系統、深入的研究,在Deep Web入口發現、表單模式抽取與集成、表單填充、查詢分發、查詢結果後處理等方面取得了系列化研究成果:(1)Deep Web入口發現是實現Deep Web搜尋的基礎,為了高效定位Deep Web入口,提出了Deep Web入口發現框架WFF,該框架通過套用主題爬行技術和本體技術以層次形式構造網頁分類器(WPC)、表單結構分類器(FSC)和表單內容分類器(FCC),實現了特定領域Deep Web入口的自動發現。(2)查詢接口是外部訪問Deep Web資料庫的門戶,為了準確抽取查詢接口模式,設計了基於啟發式規則信息的查詢接口區域定位算法以及基於網頁可視化特徵和本體的Deep Web查詢接口語義屬性抽取算法,從而獲取查詢接口的語義模型。(3)Deep Web接口集成主要完成兩個方面的工作:接口模式匹配與接口模式融合。接口模式匹配採用本體概念映射方法,在不同接口模式間建立屬性映射關係,實現不同Deep Web資料庫查詢接口屬性的匹配過程。接口模式融合根據接口模式匹配的結果,合併了Deep Web資料庫查詢接口集合中表示同一語義的屬性,保留了一些查詢接口中特定的屬性,從而得到集成查詢接口。(4)Deep Web表單自動填充的本質是用源表單查詢構造目標表單查詢,為了準確實現查詢轉換,設計了基於本體的查詢轉換算法,將用戶提交的查詢條件分解成與各個Deep Web資料庫查詢接口相適應的查詢條件,實現用戶透明的全局統一查詢接口向各個Deep Web表單的查詢分發與表單自動填充。(5)Deep Web查詢結果後處理最終要將從各個Web資料庫獲得的數據合併為統一的模式返回給用戶,為此,設計了基於本體的最大相關度子樹算法用於識別查詢結果數據區域,並利用混合的啟發式規則對數據記錄進行分割和抽取,同時,使用本體對抽取的數據進行注釋,實現了異構查詢結果頁面的集成。(6)構建了一個面向圖書領域的DeepSearch搜尋系統。基於本項目,課題組在SCI期刊、EI國際期刊、國際會議、一級學報和核心期刊上共發表論文26篇,其中SCI國際期刊3篇、EI國際期刊12篇、一級學報3篇。被SCI檢索3次、EI檢索15次、ISTP檢索3次。此外,申請專利1項,軟體著作權1項。

相關詞條

熱門詞條

聯絡我們