前言
Web數據指能夠通過Web訪問到的所有數據。基於Web數據訪問形式不同,Web又分為淺層網路淺層網路(Surface Web)和深層網路深層網路(Deep Web)。如何有效地管理Web上的大量信息,以滿足用戶不斷增長的高質量的信息需求,成為學術界和產業界共同關注並致力於解決的問題。Web數據所呈現的特徵為:海量異構;分布廣泛;動態增長;先有數據,後有模式。這使得Web數據無論從數量上還是複雜程度上,都與傳統資料庫技術所處理的數據顯著不同,需要有更先進的技術來管理Web數據。
Web數據管理Web數據管理的主要目的是解決Web上豐富信息資源有效利用的問題,從而大大提高Web套用的開發效率。Web數據管理是指針對特定的主題領域,利用數據抽取和數據集成技術,自動識別Web中與所給主題相關的實體及實體之間的關聯,構造面向主題的結構化關聯數據,並對這些數據進行有效處理(包括數據質量數據質量、動態演化動態演化、隱私保護隱私保護等),從而為用戶提供高質量的信息服務。
傳統的資料庫技術為傳統套用系統的開發提供了有利的支撐,縮短了套用開發周期,降低了系統維護成本。Web數據管理技術與傳統的資料庫技術一脈相承,其大大降低了Web套用系統開發的難度,同樣縮短了套用開發周期,降低了系統維護的代價。諸如學術集成系統學術集成系統、網路輿情系統網路輿情系統、價格比對系統價格比對系統、工作查找系統工作查找系統等套用,利用Web數據管理系統可以方便快捷地加以開發,並實現日常的自動增量維護。
當下大數據浪潮一浪高過一浪,大數據大數據所體現的數據量大(volume)、數據多樣性(variety)、實時性強(velocity) 、價值大(value)以及真實性(veracity)的特徵與Web數據的特徵幾多相似。因此本書所提出的Web數據管理技術與方法,本質上提供了將多源異構非結構化數據非結構化數據加以結構化管理的途徑,進而為解決大數據管理問題提供了有益的嘗試。
特別感謝兩位在此領域頗有建樹的學者百忙中撥冗為本書作序:美國賓漢姆頓紐約州立大學孟衛一教授和清華大學周立柱教授。孟衛一教授在Web數據管理方面是國際上的知名學者,作為元搜尋引擎的開拓者在國際上享有盛譽,自2000年以來多次回國開辦Web數據管理方面的講習班,與本研究團隊交流密切,對我們的工作多有指導和幫助,他目前是Web時代信息管理國際會議(WAIM)指導委員會主席。周立柱教授領導的研究團隊在大規模Web數據管理和知識提取方面有出色的研究工作,對本實驗室的研究工作常年給予指導和幫助,他目前擔任中國計算機學會資料庫專業委員會主任委員。他們對本書作了整體概括和推介,在此深表謝意。
本書的形成凝聚了中國人民大學網路與移動數據管理實驗室集體智慧。特別感謝實驗室的博士研究生和碩士研究生,先後有若干屆的學生參與到本項目的研究中來,他們是博士生劉偉、姜芳艽、李玉坤、張金增、馬如霞、馬友忠、李勇,以及碩士生谷明哲、王海燕、胡東東、李宇、李忺、林燦、凌妍妍、王仲遠、艾靜、趙婧、胡享梅、賈琳琳、張相於、寇玉波、陳威、鄧雲、童薇、王淼、趙可君等。劉偉(第一部分)、姜芳艽(第二部分)、李玉坤(第三部分)、王仲遠(第15、21章)等直接參與寫作並在資料收集和文獻整理方面做了大量工作。
本書涉及面廣,內容豐富,參考文獻眾多。值得指出的是,在全書的撰寫和課題的研究中,儘管投入了大量精力、付出了艱苦努力,但受知識水平所限,書中不當之處在所難免,誠懇希望讀者批評指正並不吝賜教。如果有任何建議或意見,可發電子郵件。
孟小峰
2014年3月於北京
目錄
第1章緒論
1.1引言
1.2Web數據及特點
1.3Web數據管理及其套用
1.4Web數據抽取
1.5Web數據集成
1.6數據空間
1.7小結
參考文獻
第2章XML基礎知識
2.1引言
2.2基本概念
2.3XML查詢語言
2.4小結
參考文獻
第一部分Web數據抽取
第3章Web數據抽取方法概述
3.1引言
3.2Web頁面分類
3.3Web數據抽取定義
3.4Web數據抽取方法
3.5Web數據抽取評價標準
3.6小結
參考文獻
第4章數據型頁面抽取方法
4.1引言
4.2多記錄數據型頁面的抽取方法
4.3單記錄數據型頁面抽取方法
4.4小結
參考文獻
第5章文檔型頁面抽取方法
5.1引言
5.2單記錄文檔型頁面抽取方法
5.3多記錄文檔型頁面抽取方法
5.4小結
參考文獻
第6章包裝器的生成與維護
6.1引言
6.2包裝器的生成
6.3包裝器的維護
6.4系統結構
6.5小結
參考文獻
第7章基於視覺的數據抽取
7.1引言
7.2Web頁面上的視覺信息
7.3基於視覺的數據記錄抽取
7.4基於視覺的數據項抽取
7.5小結
參考文獻
第8章Web實體識別
8.1引言
8.2屬性分類
8.3整體解決方案
8.4訓練集的自動獲取
8.5屬性匹配