Deep Web數據集成查詢結果抽取與整合關鍵技術研究

項目摘要

Web可分為Surface Web和Deep Web。Deep Web數據量大、主題專一、數據質量高，其價值遠遠超過了Surface Web，然而傳統的搜尋引擎搜尋不出這部分數據。為了方便用戶高效使用Deep Web數據，大規模Deep Web數據集成的研究已成為一個非常迫切的問題。查詢結果的抽取與整合是Deep Web數據集成中的重要環節，存在著許多困難和挑戰。本項目擬探討其中最為核心的三個關鍵技術：研究查詢結果頁面抽取技術，充分利用頁面的結構特徵和內容特徵，實現結構化數據的自動抽取;研究查詢結果數據語義標註技術，充分利用Web數據元素之間的邏輯約束關係，提高語義標註的準確性，並實現多數據源數據模式的一致性;研究大規模重複記錄檢測技術，構建領域層次的重複記錄檢測模型，實現同一領域大規模Web資料庫之間自動的重複記錄檢測。項目成果預期將在商業智慧型、企業搜尋、情報分析等系統中。

結題摘要

項目組全面完成任務書中各項任務，發表論文22篇，其中SCI檢索4篇，EI檢索17篇，ISTP檢索5篇，申請專利1項，獲得軟體著作權2項。項目負責人董永權入選江蘇省“青藍工程”優秀青年骨幹教師，在美國紐約州立大學賓漢姆頓分校計算機系進行為期一年的訪問學習。本項目主要圍繞Deep Web數據集成中查詢結果處理的關鍵技術展開研究，主要包括：（1）在查詢結果頁面抽取方面，針對列表頁面，提出一種基於視覺信息和部分樹對齊的Web數據抽取方法。該方法充分利用頁面的視覺信息，利用聚類及重組方法進行數據記錄抽取，利用部分樹對齊方法進行數據項抽取，有效提高了列表頁面的抽取準確率；針對詳細頁面，提出一種基於集成學習的Web數據抽取方法。該方法充分利用頁面的結構特徵和內容特徵，集成多個分類器的抽取結果，有效提高了詳細頁面的抽取準確率。（2）在查詢結果語義標註方面，首先提出一種基於半監督條件隨機場的Web數據語義標註方法。該方法僅需要較少的訓練集，減少了人工標註的負擔，同時綜合利用多種特徵（文字特徵、上下文特徵、語義特徵等）訓練條件隨機場模型，具有較好的標註性能。在此基礎上又進一步展開研究，提出一種基於約束條件隨機場模型的Web數據語義標註方法。該方法充分利用了已有的Web資料庫信息和Web數據元素之間的邏輯關係，有效提高了Web數據語義標註的性能。（3）在大規模重複記錄檢測方面，提出一種三段式自動重複記錄檢測方法。該方法利用聚類集成方法自動選擇初始訓練集，避免手工標註，提高初始訓練集選擇的準確率；利用協同訓練方法學習任意兩個Web數據源之間的分類模型，提高了分類的準確性；利用證據理論方法構建領域層次的重複記錄檢測模型，有效地實現了同一領域內大規模Web數據源之間的重複記錄檢測。（4）在Web數據獲取方面，提出一種基於查詢詞采新率模型的Deep Web爬取方法。該方法克服了已有方法單一性和經驗性的不足，有效的保證了查詢的無關性，從而確保查詢樣本的覆蓋度，減少其冗餘性。

Deep Web數據集成查詢結果抽取與整合關鍵技術研究

基本介紹

項目摘要

結題摘要

熱門詞條