計算機科學叢書:數據集成原理

計算機科學叢書:數據集成原理

《計算機科學叢書:數據集成原理》主要討論數據集成技術,共分為三部分。第一部分主要關注數據集成領域的基本知識,如查詢表達式、數據源描述、異構數據與模式的匹配、模式操作、查詢應答、Web數據抽取以及集成數據的存儲。第二部分主要關注擴展的數據表示,擴展的數據表示可以獲得標準關係數據模型無法表示的一些特性,如層次型(XML)、基於知識表示的本體構建、不確定性以及數據溯源。第三部分介紹解決特定集成問題的創新架構,主要包括多樣的Web數據源集成、基於關鍵字搜尋的結構化數據集成、對等數據集成和支持協同的集成等。最後介紹了數據集成技術的主要研究方向。

基本介紹

  • 書名:計算機科學叢書:數據集成原理
  • 作者:多恩 (AnHai Doan) 哈勒維 (Alon Halevy)
  • 出版社:機械工業出版社
  • 頁數:373頁
  • 開本:16
  • 品牌:機械工業出版社
  • 外文名:Principles of Data Integration
  • 類型:科技
  • 出版日期:2014年9月1日
  • 語種:簡體中文
  • ISBN:9787111471660 
基本介紹,內容簡介,作者簡介,圖書目錄,

基本介紹

內容簡介

《計算機科學叢書:數據集成原理》可作為高等院校計算機及相關專業高年級本科生或者研究生課程的教材,還可作為資料庫和數據集成領域研究人員和從業者的參考資料。

作者簡介

作者:(美國)多恩(AnHai Doan) (美國)哈勒維(Alon Halevy) (美國)艾夫斯(Zachary Ives) 譯者:孟小峰 馬如霞 馬友忠

多恩(AnHai Doan),威斯康星大學麥迪遜分校計算機科學系副教授。
哈勒維(Alon Halevy),谷歌結構化數據組負責人。
艾夫斯(Zachary Ives),賓夕法尼亞大學費城分校副教授。

圖書目錄

出版者的話
中文版序
譯者序
前言
第1章緒論
1.1什麼是數據集成
1.2數據集成面臨的挑戰
1.2.1系統原因
1.2.2邏輯原因
1.2.3社會和管理原因
1.2.4設定預期
1.3數據集成架構
1.3.1數據集成系統的組成部分
1.3.2數據集成實例
1.4全書概覽
參考文獻注釋
第一部分數據集成技術基礎
第2章查詢表達式及運算
2.1資料庫概念回顧
2.1.1數據模型
2.1.2完整性約束
2.1.3查詢和應答
2.1.4合取查詢
2.1.5datalog查詢
2.2查詢展開
2.3查詢包含與等價
2.3.1形式化定義
2.3.2合取查詢的包含
2.3.3合取查詢的並集
2.3.4帶有比較謂詞的合取查詢
2.3.5帶有否定的合取查詢
2.3.6包語義、分組和聚集
2.4基於視圖計算查詢
2.4.1問題定義
2.4.2視圖與查詢計算的相關性
2.4.3查詢重寫的可能長度
2.4.4桶算法和MiruCon算法
2.4.5邏輯方法:逆規則算法
2.4.6算法比較
2.4.7基於視圖的查詢應答
參考文獻注釋
第3章數據源描述
3.1概述和必要條件
3.2模式映射語言
3.2.1模式映射語言規則
3.2.2全局視圖
3.2.3局部視圖
3.2.4全局—局部視圖
3.2.5元組生成依賴
3.3訪問模式限制
3.3.1構建訪問模式限制
3.3.2生成可執行計畫
3.4中介模式上的完整性約束
3.4.1帶有完整性約束的LAV
3.4.2帶有完整性約束的GAV
3.5結果完備性
3.5.1局部完備性
3.5.2結果完備性檢測
3.6數據級的異構性
3.6.1標度差異性
3.6.2相同實體的多重表示
參考文獻注釋
第4章字元串匹配
4.1問題描述
4.2相似度度量
4.2.1基於序列的相似度度量
4.2.2基於集合的相似度度量
4.2.3混合相似度度量
4.2.4語音相似度度量
4.3可擴展的字元串匹配
4.3.1字元串上的倒排索引
4.3.2大小過濾
4.3.3前綴過濾
4.3.4位置過濾
4.3.5邊界過濾
4.3.6其他相似度度量方法的可擴展技術
參考文獻注釋
第5章模式匹配與模式映射
5.1問題定義
5.1.1語義映射
5.1.2語義匹配
5.1.3模式匹配與模式映射
5.2模式匹配和模式映射的挑戰
5.3匹配和映射系統概述
5.3.1模式匹配系統
5.3.2模式映射系統
5.4匹配器
5.4.1名字匹配器
5.4.2實例匹配器
5.5組合匹配預測
5.6施加域完整性約束
5.6.1域完整性約束
5.6.2搜尋匹配組合空間
5.7匹配選擇器
5.8匹配重用
5.8.1學習匹配
5.8.2學習器
5.8.3訓練元學習器
5.9多對多匹配
5.10由匹配到映射
參考文獻注釋
第6章通用模式操作
6.1模型管理操作
6.2合併操作
6.3模型生成操作
6.4逆映射操作
6.5模型管理系統
參考文獻注釋
第7章數據匹配
7.1問題定義
7.2規則匹配
7.3學習匹配
7.4聚類匹配
7.5機率匹配
7.5.1貝葉斯網路
7.5.2基於樸素貝葉斯的數據匹配
7.5.3特徵相關性
7.5.4文本中的實體指代匹配
7.6協同匹配
7.6.1基於聚類的協同匹配
7.6.2協同匹配文檔中的實體指代
7.7數據匹配的可擴展性
7.7.1規則匹配擴展
7.7.2其他匹配方法的擴展
參考文獻注釋
第8章查詢處理
8.1背景:DBMS查詢處理
8.1.1選擇查詢執行計畫
8.1.2執行查詢計畫
8.2背景:分散式查詢處理
8.2.1數據放置和轉移
8.2.2兩階段連線
8.3數據集成查詢處理
8.4生成初始查詢計畫
8.5網際網路數據的查詢執行
8.5.1多執行緒、流水線、數據流架構
8.5.2有自治數據源的接口
8.5.3故障處理
8.6自適應查詢處理
8.7事件驅動自適應策略
8.7.1數據源故障和延遲處理
8.7.2處理流水線操作結束時突發的基數問題
8.8性能驅動的自適應策略
8.8.1Eddy:基於佇列的計畫選擇
8.8.2校正查詢處理:基於代價的重新最佳化
參考文獻注釋
第9章包裝器
9.1引言
9.1.1包裝器的構建
9.1.2包裝器構建面臨的挑戰
9.1.3構建方法的分類
9.2手動的包裝器構建
9.3基於學習的包裝器構建
9.3.1HLRT包裝器
9.3.2Stalker包裝器
9.4無模式的包裝器學習
9.4.1建模數據源模式TS和抽取程式EW
9.4.2推導數據模式TS和抽取程式EW
9.5互動的包裝器構建
9.5.1使用Stalker互動標記頁面
9.5.2使用Poly識別正確的抽取規則
9.5.3用Lixto創建抽取規則
參考文獻注釋
第10章數據倉庫與快取
10.1數據倉庫
10.1.1數據倉庫設計
10.1.2ETL:抽取/轉換/載入
10.2數據交換:描述性倉庫
10.2.1數據交換設定
10.2.2數據交換解
10.2.3通用解
10.2.4核心通用解
10.2.5查詢物化信息庫
10.3快取及部分物化
10.4本地、外部數據的直接分析
參考文獻注釋
第二部分擴展數據表示集成
第11章XML
11.1數據模型
11.2XML結構和模式定義
11.2.1文檔類型定義
11.2.2XML模式
11.3查詢語言
11.3.1先驅:DOM和SAX
11.3.2XPath:XML查詢原語
11.3.3XQuer:XML查詢能力
11.4XML查詢處理
11.4.1XML路徑匹配
11.4.2XML輸出
11.4.3XML查詢最佳化
11.5XML模式映射
11.5.1嵌套映射
11.5.2帶嵌套映射的查詢重寫
參考文獻注釋
第12章本體和知識表示
12.1數據集成中的知識表示舉例
12.2描述邏輯
12.2.1描述邏輯的語法
12.2.2描述邏輯的語義
12.2.3描述邏輯的推理
12.2.4描述邏輯和資料庫推理的比較
12.3語義Web
12.3.1資源描述框架
12.3.2RDF模式
12.3.3Web本體語言
12.3.4RDF查詢:SPARQL語言
參考文獻注釋
第13章不確定性數據集成
13.1不確定性表示
13.1.1機率數據表示
13.1.2從不確定性到機率
13.2不確定模式映射建模
13.2.1機率映射
13.2.2機率映射的語義
13.2.3表語義
13.2.4元組語義
13.3不確定性和數據溯源
參考文獻注釋
第14章數據溯源
14.1溯源的兩種表示方法
14.1.1使用數據標註表示溯源
14.1.2使用數據關係圖表示溯源
14.1.3兩種表示方法的可交換性
14.2數據溯源的套用
14.3溯源半環
14.3.1半環形式化模型
14.3.2半環模型的套用
14.4溯源的存儲
參考文獻注釋
第三部分新型集成系統
第15章Web數據集成
15.1Web數據的用途
15.2深層網路
15.2.1垂直搜尋
15.2.2深層網路淺層化
15.3主題入口網站
15.4Web數據的輕量級集成
15.4.1發現Web中的結構化數據
15.4.2導入數據
15.4.3合併多個數據集
15.4.4重用他人工作成果
15.5“即付即用”數據管理
參考文獻注釋
第16章關鍵字搜尋:按需集成
16.1結構化數據中的關鍵字搜尋
16.1.1數據圖
16.1.2關鍵字匹配和評分模型
16.2結果排名計算
16.2.1圖擴展算法
16.2.2基於闞值的合併
16.3數據集成中的關鍵字搜尋
16.3.1以可擴展的方式自動地構建邊
16.3.2可擴展的查詢應答
16.3.3通過學習算法調整邊和節點的權重
參考文獻注釋
第17章對等數據集成
17.1對等節點和映射
17.2映射的語義
17.3PDMS查詢應答的複雜性
17.3.1有環PDMS
17.3.2對等映射中的比較謂詞
17.4查詢重寫算法
17.5組合映射
17.6採用鬆散映射進行對等數據管理
17.6.1基於相似度的映射
17.6.2映射表
參考文獻注釋
第18章支持協同的集成
18.1協同因何而不同
18.2處理校正和反饋
18.2.1直接向下傳播的用戶更新
18.2.2回溯傳播的反饋或更新
18.3協同標註與表達
18.3.1映射作為標註:軌跡
18.3.2評論和討論作為標註
18.4動態數據:協同數據共享
18.4.1基本架構
18.4.2映射更新與物化實例
18.4.3衝突協調
參考文獻注釋
第19章數據集成的未來
19.1不確定性、溯源和清理
19.2眾包和“人計算”
19.3構建大規模結構化Web資料庫
19.4輕量級集成
19.5集成數據可視化
19.6社交媒體集成
19.7基於集群和雲的並行處理與快取
參考文獻
索引

相關詞條

熱門詞條

聯絡我們