Web數據管理:概念與技術

Web數據管理:概念與技術

《Web數據管理:概念與技術》是清華大學出版社於2014年9月1日出版的圖書,作者是孟小峰、劉偉、姜芳艽、李玉坤、王仲遠。

基本介紹

  • 中文名:Web數據管理:概念與技術
  • 作者:孟小峰、劉偉、姜芳艽、李玉坤、王仲遠
  • 出版時間:2014年9月1日 
  • 出版社:清華大學出版社
  • 頁數:344 頁
  • ISBN:9787302370727  
  • 類別:作業系統類圖書
  • 定價:69 元
  • 開本:16 開
  • 裝幀:平裝
  • 印刷日期:2014年8月21日
前言,內容簡介,目錄,

前言

Web數據指能夠通過Web訪問到的所有數據。基於Web數據訪問形式不同,Web又分為淺層網路淺層網路(Surface Web)和深層網路深層網路(Deep Web)。如何有效地管理Web上的大量信息,以滿足用戶不斷增長的高質量的信息需求,成為學術界和產業界共同關注並致力於解決的問題。Web數據所呈現的特徵為:海量異構;分布廣泛;動態增長;先有數據,後有模式。這使得Web數據無論從數量上還是複雜程度上,都與傳統資料庫技術所處理的數據顯著不同,需要有更先進的技術來管理Web數據。
Web數據管理Web數據管理的主要目的是解決Web上豐富信息資源有效利用的問題,從而大大提高Web套用的開發效率。Web數據管理是指針對特定的主題領域,利用數據抽取和數據集成技術,自動識別Web中與所給主題相關的實體及實體之間的關聯,構造面向主題的結構化關聯數據,並對這些數據進行有效處理(包括數據質量數據質量、動態演化動態演化、隱私保護隱私保護等),從而為用戶提供高質量的信息服務。
傳統的資料庫技術為傳統套用系統的開發提供了有利的支撐,縮短了套用開發周期,降低了系統維護成本。Web數據管理技術與傳統的資料庫技術一脈相承,其大大降低了Web套用系統開發的難度,同樣縮短了套用開發周期,降低了系統維護的代價。諸如學術集成系統學術集成系統、網路輿情系統網路輿情系統、價格比對系統價格比對系統、工作查找系統工作查找系統等套用,利用Web數據管理系統可以方便快捷地加以開發,並實現日常的自動增量維護。
當下大數據浪潮一浪高過一浪,大數據大數據所體現的數據量大(volume)、數據多樣性(variety)、實時性強(velocity) 、價值大(value)以及真實性(veracity)的特徵與Web數據的特徵幾多相似。因此本書所提出的Web數據管理技術與方法,本質上提供了將多源異構非結構化數據非結構化數據加以結構化管理的途徑,進而為解決大數據管理問題提供了有益的嘗試。
特別感謝兩位在此領域頗有建樹的學者百忙中撥冗為本書作序:美國賓漢姆頓紐約州立大學孟衛一教授和清華大學周立柱教授。孟衛一教授在Web數據管理方面是國際上的知名學者,作為元搜尋引擎的開拓者在國際上享有盛譽,自2000年以來多次回國開辦Web數據管理方面的講習班,與本研究團隊交流密切,對我們的工作多有指導和幫助,他目前是Web時代信息管理國際會議(WAIM)指導委員會主席。周立柱教授領導的研究團隊在大規模Web數據管理和知識提取方面有出色的研究工作,對本實驗室的研究工作常年給予指導和幫助,他目前擔任中國計算機學會資料庫專業委員會主任委員。他們對本書作了整體概括和推介,在此深表謝意。
本書的形成凝聚了中國人民大學網路與移動數據管理實驗室集體智慧。特別感謝實驗室的博士研究生和碩士研究生,先後有若干屆的學生參與到本項目的研究中來,他們是博士生劉偉、姜芳艽、李玉坤、張金增、馬如霞、馬友忠、李勇,以及碩士生谷明哲、王海燕、胡東東、李宇、李忺、林燦、凌妍妍、王仲遠、艾靜、趙婧、胡享梅、賈琳琳、張相於、寇玉波、陳威、鄧雲、童薇、王淼、趙可君等。劉偉(第一部分)、姜芳艽(第二部分)、李玉坤(第三部分)、王仲遠(第15、21章)等直接參與寫作並在資料收集和文獻整理方面做了大量工作。
本書涉及面廣,內容豐富,參考文獻眾多。值得指出的是,在全書的撰寫和課題的研究中,儘管投入了大量精力、付出了艱苦努力,但受知識水平所限,書中不當之處在所難免,誠懇希望讀者批評指正並不吝賜教。如果有任何建議或意見,可發電子郵件。
孟小峰
2014年3月於北京

內容簡介

本書介紹Web數據管理技術,包括:Web數據抽取(數據型頁面和文檔型頁面的抽取方法、基於視覺信息的抽取方法、包裝器生成與維護及實體識別),Web數據集成(查詢接口集成、模式匹配、查詢轉換、資料庫採樣、資料庫大小估計及集成系統實現),數據空間(數據空間的模型、索引、查詢及系統實現),以及Web數據管理新技術(Web信息可信性、移動Web搜尋、移動套用集成、大規模知識庫構建及社交媒體)。

目錄

第1章緒論
1.1引言
1.2Web數據及特點
1.3Web數據管理及其套用
1.4Web數據抽取
1.5Web數據集成
1.6數據空間
1.7小結
參考文獻
第2章XML基礎知識
2.1引言
2.2基本概念
2.3XML查詢語言
2.4小結
參考文獻
第一部分Web數據抽取
第3章Web數據抽取方法概述
3.1引言
3.2Web頁面分類
3.3Web數據抽取定義
3.4Web數據抽取方法
3.5Web數據抽取評價標準
3.6小結
參考文獻
第4章數據型頁面抽取方法
4.1引言
4.2多記錄數據型頁面的抽取方法
4.3單記錄數據型頁面抽取方法
4.4小結
參考文獻
第5章文檔型頁面抽取方法
5.1引言
5.2單記錄文檔型頁面抽取方法
5.3多記錄文檔型頁面抽取方法
5.4小結
參考文獻
第6章包裝器的生成與維護
6.1引言
6.2包裝器的生成
6.3包裝器的維護
6.4系統結構
6.5小結
參考文獻
第7章基於視覺的數據抽取
7.1引言
7.2Web頁面上的視覺信息
7.3基於視覺的數據記錄抽取
7.4基於視覺的數據項抽取
7.5小結
參考文獻
第8章Web實體識別
8.1引言
8.2屬性分類
8.3整體解決方案
8.4訓練集的自動獲取
8.5屬性匹配
8.6屬性權重的疊代訓練
8.7小結
參考文獻
第二部分Web數據集成
第9章Web數據集成概述
9.1引言
9.2集成框架
9.3集成查詢接口的生成
9.4查詢處理
9.5查詢結果的處理
9.6小結
參考文獻
第10章查詢接口集成
10.1引言
10.2查詢接口分析與集成
10.3簡易查詢接口生成與處理
10.4小結
參考文獻
第11章不確定模式匹配
11.1引言
11.2模式匹配定義
11.3相似度計算
11.4基於數字實例的模式匹配
11.5模式匹配最佳化
11.6不確定性模式匹配
11.7小結
參考文獻
第12章查詢轉換
12.1引言
12.2查詢轉換問題
12.3近似查詢轉換定義
12.4基於動態規則的查詢轉換
12.5基於謂詞的查詢轉換
12.6基於查詢能力的查詢轉換
12.7小結
參考文獻
第13章資料庫採樣
13.1引言
13.2基本概念
13.3Web資料庫圖模型
13.4Web資料庫採樣方法
13.5小結
參考文獻
第14章資料庫大小估計
14.1引言
14.2一種樸素的基於詞頻的估算方法
14.3一種粗糙的基於詞頻的估算方法
14.4小結
參考文獻
第15章Web數據集成系統
15.1引言
15.2體系結構
15.3靜態集成案例——學術信息集成
15.4動態集成案例——工作信息集成
15.5小結
參考文獻
第三部分數據空間
第16章數據空間概述
16.1引言
16.2什麼是數據空間
16.3數據空間的特徵
16.4數據空間與資料庫
16.5數據空間與數據集成
16.6數據空間系統
16.7小結
參考文獻
第17章數據空間模型
17.1引言
17.2iDM數據模型
17.3核心數據空間
17.4任務空間
17.5小結
參考文獻
第18章數據空間索引
18.1引言
18.2倒排索引
18.3FAX索引
18.4UFAX索引
18.5小結
參考文獻
第19章數據空間查詢處理
19.1引言
19.2查詢接口
19.3關鍵字查詢
19.4多屬性組合查詢
19.5任務查詢
19.6小結
參考文獻
第20章數據空間系統
20.1引言
20.2實現技術
20.3系統框架
20.4系統功能
20.5其他系統
20.6小結
參考文獻
第四部分Web數據管理新技術
第21章Web信息可信性
21.1概述
21.2不同套用場景下的信息可信性
21.3信息可信度評估方法
21.4Web信息可信度評估框架
21.5小結
參考文獻
第22章移動Web搜尋
22.1引言
22.2系統框架
22.3地理標記Web資源
22.4查詢處理
22.5相關性排名
22.6查詢結果可視化
22.7小結
參考文獻
第23章移動套用集成
23.1引言
23.2移動套用集成框架
23.3移動套用匹配
23.4關鍵技術
23.5小結
參考文獻
第24章大規模知識庫構建
24.1引言
24.2關聯數據
24.3知識圖譜
24.4小結
參考文獻
第25章社交媒體
25.1引言
25.2社交媒體的特點
25.3社交媒體數據帶來的挑戰
25.4社交媒體中的短文本分析
25.5基於社交媒體的事件發現
25.6社交媒體事件處理框架
25.7小結
參考文獻索引

相關詞條

熱門詞條

聯絡我們