內容簡介
數據虛擬化可以使商務智慧型系統的數據架構更簡單、更便宜、更敏捷。本書討論關於數據虛擬化的“是什麼”“為什麼”和“怎么辦”,這些內容不限於特定的製造商或產品,而是全景呈現其基本原理、影響範圍、最佳化技術、套用方法和管理策略。你將了解數據虛擬化技術與ETL等傳統方法的不同,同時更加明晰這項技術自身的優劣,進而在開發和管理不同項目時做到有的放矢、事半功倍。此外,作者還分享了豐富的實戰經驗,十分適合從事數據管理、數據架構、數據分析等工作的專業技術人員參考。
作者簡介
Rick F. van der Lans,是商務智慧型、數據倉庫、資料庫技術、SQL領域的一位獨立諮詢師、作者以及講師。他是R20/Consultancy的管理經理。他還受僱於許多世界 級大公司並為其定製數據倉庫架構。他是歐洲商務智慧型和數據倉庫年會的主席,並為幾個雜誌撰寫專欄。他曾經擔任荷蘭ISO委員會負責ISO SQL標準的成員達7年之久。他是經典圖書《Introduction to SQL》的作者,該書是資料庫開發者20多年采所信賴的SQL指南,已經被翻譯成各種語言,銷量超過十萬冊。
目錄
序言
前言
作者簡介
第1章 數據虛擬化導論1
1.1 引言1
1.2 商務智慧型世界正在改變1
1.3 虛擬化簡介3
1.4 什麼是數據虛擬化3
1.5 數據虛擬化與相關概念4
1.5.1 數據虛擬化與封裝和信息隱藏4
1.5.2 數據虛擬化與抽象5
1.5.3 數據虛擬化與數據聯合5
1.5.4 數據虛擬化與數據集成6
1.5.5 數據虛擬化與企業信息集成7
1.6 數據虛擬化的定義8
1.7 數據虛擬化的技術優勢8
1.8 數據虛擬化的不同實現11
1.9 數據虛擬化伺服器概述12
1.10 開放式與封閉式數據虛擬化伺服器12
1.11 數據集成的其他方式13
1.12 數據虛擬化服務模型15
1.13 數據虛擬化的歷史16
1.14 示例資料庫:世界一流電影18
1.15 本書結構20
第2章 商務智慧型和數據倉庫22
2.1 引言22
2.2 什麼是商務智慧型22
2.3 管理層次與決策制定23
2.4 商務智慧型系統23
2.5 商務智慧型系統的數據存儲24
2.5.1 數據倉庫25
2.5.2 數據集市 27
2.5.3 數據中轉區28
2.5.4 可運算元據存儲29
2.5.5 個人數據存儲30
2.5.6 不同類型數據存儲的對比31
2.6 標準化模式、星形模式和雪花模式31
2.6.1 標準化模式32
2.6.2 非標準化模式32
2.6.3 星形模式33
2.6.4 雪花模式34
2.7 提取-轉換-裝載、提取-裝載-轉換和複製35
2.7.1 提取-轉換-裝載36
2.7.2 提取-裝載-轉換37
2.7.3 複製38
2.8 商務智慧型架構總覽38
2.9 報告和分析的新形式39
2.9.1 運營報告和分析39
2.9.2 深度和大數據分析40
2.9.3 自助式報告和分析40
2.9.4 無限制的自組織分析40
2.9.5 360氨ǜ?1
2.9.6 探索性分析42
2.9.7 基於文本的分析42
2.10 傳統商務智慧型系統的劣勢43
2.11 總結46
第3章 數據虛擬化伺服器:構造模組47
3.1 引言47
3.2 數據虛擬化伺服器的高層架構47
3.3 導入源表和定義封裝器48
3.4 定義虛擬表和映射50
3.5 虛擬表和映射的例子53
3.6 虛擬表和數據建模59
3.7 嵌套虛擬表和共享規範61
3.8 導入非關係數據62
3.8.1 XML和JSON文檔62
3.8.2 Web服務66
3.8.3 電子表格66
3.8.4 NoSQL資料庫68
3.8.5 多維數據集和MDX70
3.8.6 半結構化數據71
3.8.7 非結構化數據 74
3.9 發布虛擬表75
3.10 網際網路數據模型80
3.11 可更新的虛擬表和事務管理82
第4章 數據虛擬化伺服器:管理與安全85
4.1 引言85
4.2 影響度和線性分析85
4.3 源表、封裝表和虛擬表的同步87
4.4 數據安全:認證與授權88
4.5 監控、管理和實施89
第5章 數據虛擬化伺服器:虛擬表的高速快取93
5.1 引言93
5.2 虛擬表的高速快取93
5.3 什麼時候使用高速快取95
5.4 高速快取與數據集市95
5.5 高速快取保存在哪裡96
5.6 刷新高速快取97
5.7 完整刷新、增量刷新和動態刷新97
5.8 線上刷新與離線刷新98
5.9 高速快取備份98
第6章 數據虛擬化伺服器:查詢最佳化技術100
6.1 引言100
6.2 查詢最佳化的基本原理101
6.3 數據虛擬化伺服器查詢處理的10個階段104
6.4 數據存儲的智慧型等級105
6.5 通過查詢替換進行最佳化106
6.6 下推最佳化107
6.7 查詢擴展(查詢注入)最佳化109
6.8 運送連線最佳化110
6.9 合併排序連線最佳化111
6.10 快取最佳化111
6.11 數據最佳化與統計112
6.12 提示最佳化112
6.13 SQL覆蓋最佳化113
6.14 處理策略的說明114
第7章 在商務智慧型系統上部署數據虛擬化115
7.1 引言115
7.2 基於數據虛擬化的商務智慧型系統115
7.3 部署數據虛擬化的優點116
7.4 部署數據虛擬化的缺點118
7.5 採用數據虛擬化的策略119
7.5.1 策略1:在現有的商務智慧型系統上引入數據虛擬化119
7.5.2 策略2:利用數據虛擬化開發新的商務智慧型系統123
7.5.3 策略3:開發新的結合源數據和轉換數據的商務智慧型系統127
7.6 數據虛擬化的套用領域127
7.6.1 統一的數據訪問127
7.6.2 虛擬數據集市128
7.6.3 虛擬數據倉庫—基於數據集市130
7.6.4 虛擬數據倉庫—基於生產資料庫130
7.6.5 擴展數據倉庫131
7.6.6 操作報告和分析131
7.6.7 運算元據倉庫133
7.6.8 虛擬企業數據倉庫133
7.6.9 自助服務報告和分析134
7.6.10 虛擬沙盒134
7.6.11 原型設計135
7.6.12 分析半結構化和非結構化數據135
7.6.13 一次性報告136
7.6.14 通過外部用戶擴展的商務智慧型系統136
7.7 關於數據虛擬化的謬論138
第8章 數據虛擬化設計指南140
8.1 引言140
8.2 錯誤數據和數據質量140
8.2.1 錯誤數據的不同形式141
8.2.2 完整性規則和錯誤數據142
8.2.3 過濾、標記和恢復錯誤數據142
8.2.4 過濾錯誤數據的例子143
8.2.5 標記錯誤值示例145
8.2.6 恢復拼寫錯誤數據示例146
8.3 複雜和不規則的數據結構148
8.3.1 沒有名字的代碼150
8.3.2 鍵值不一致150
8.3.3 重複組151
8.3.4 遞歸數據結構153
8.4 實現封裝或映射中的轉換155
8.5 分析錯誤數據155
8.6 不同的用戶和不同的定義156
8.7 數據時間的不一致性157
8.8 數據存儲和數據傳輸158
8.9 生產系統數據檢索159
8.10 加入歷史和業務數據1