深層網的大規模和自適應數據集成研究

《深層網的大規模和自適應數據集成研究》是依託北京大學,由蘇偉峰擔任負責人的面上項目。

基本介紹

  • 中文名:深層網的大規模和自適應數據集成研究
  • 項目負責人:蘇偉峰
  • 項目類別:面上項目
  • 依託單位:北京大學
項目摘要,結題摘要,

項目摘要

深層網(Deep Web)指那些存儲在Web資料庫里、不能通過超連結訪問而需要通過動態網頁技術訪問的資源集合。據估計,深層網的資源容量約為表層網(Surface Web)的500倍,而且包含更多有價值的資源。本課題的主要研究目標是在錯綜複雜的深層網,仔細分析深層網的特性,建立一套自適應的數據集成和排序模型,意在從數量龐大的數據源中找出最符合用戶需求的記錄優先返回給用戶。著眼於大規模和自適應的數據集成,本項目研究具有四個創新點1、基於統計的數據源查詢接口的分析方法; 2、基於加權屬性值圖的Web資料庫採樣方法;3、利用屬性值相似度對齊記錄和其他數據源的標籤標註屬性值;4、研究動態地根據記錄相似度的記錄排序算法。本項目擬通過實驗論證模型適用性和實用性,為Web資料庫集成的套用需求,也為其他異構資料庫的數據集成研究提供新思路和新方法。

結題摘要

本項目針對通用和垂直搜素引擎對深層網搜尋的實際需求,深入重研究在動態Web環境下大規模和自適應的深層網數據集成和排序理論。研究內容分為4個方面:1、數據源查詢接口分析; 2、Web 資料庫採樣方法;3、記錄抽取;4、記錄排序。通過本項目的研究,取得了一批有意義的研究成果。特別在兩個問題上做出有意義的探索:1、是提出基於最大熵原理自動地把查詢接口根據語義組合分析成為一顆語義樹,提出新的語法與特徵,實驗表明該模型能精確地把查詢接口提取出來,有效地克服了現有查詢接口分析所存在的問題。2、使用一個新的記錄提取和對齊模型, 該模型結合了標記和屬性值的相似度,進行數據抽取,有效地解決查詢結果頁面常見的三類問題。此外,項目組成員積極開拓、豐富相關領域的研究。提出新的數據採樣方法和記錄排序模型,努力將課題組的工作系統化、流程化。建立以從查詢接口分析、數據採樣、記錄抽取和排序的系統化理論和方法。基本完善了Web資料庫數據抽取與集成的理論和算法工作。已發表(錄用)學術論文13篇。其中權威期刊4篇,包括IEEE Transaction on Knowledge and Data Engineering(TKDE), ACM Transaction on Web(Tweb)等,本領域頂級國際學術會議論文2篇,包括CIKM等。收錄SCI 3 篇(含SCI源);另投出相關學術論文2篇。本項目達到並超過了預定的研究目標,系統化、完備化了Web資料庫數據抽取與集成流程。因此本項目的研究不僅具有十分重要的學術價值,而且在課題組未來的研究工作中極大的拓展、完善相關研究問題的完整解決,具有廣闊的套用前景。

相關詞條

熱門詞條

聯絡我們