內容簡介
本書共分5章,涉及數據倉庫的基本概念、定義及主要特點;根據數據倉庫的基礎技術和結構概念,採用從元數據、多維數據結構、在線上分析處理、數據挖掘、數據倉庫的基礎部件到在線上和成品分析報告一條龍的方法,描述了數據倉庫設計與開發生命周期的各個階段以及相應的技術結構框架;另外,還提供了大量的套用實例,如支票信用認可網路系統、某飛機製造公司單源生產數據、汽車銷售管理網路系統等多個工程開發的成功案例;同時,本書還介紹了數據倉庫開發過程和策略,主要有跳躍(蛙跳)式發展、數據倉庫系統多層次的結構平台——核心與外殼、數據倉庫套用開發的要點與特徵、數據倉庫設計、質量保障、任務、資源、團隊、技能等基本內容;最後,通過一系列程式實例,講解了數據倉庫設計與套用開發的建立過程,以及SQL程式在Oracle 9i和SQL Server 分析伺服器平台上的實施情況,包括概念設計、物理設計、ETL、總合管理、在線上分析、SQL分析和報表構架等詳細技術說明。
本書以成功實踐為基礎,理論與技術實踐密切結合,結構緊湊,內容新穎,圖文並茂,論述精闢,可作為高等院校信息技術和管理專業、資料庫專業教學與研究的教材;同時也適合從事信息系統研究與工程套用開發的廣大科技人員作為學習與指導的參考讀物。
目 錄
第1章 數據倉庫技術與套用概述 1
1.1 數據倉庫的基本概念 2
1.1.1 數據倉庫的系統體系 2
1.1.2 數據倉庫的套用目標 3
1.2 數據倉庫與常規事務處理資料庫的區別與聯繫 3
1.2.1 從數據倉庫到操作型資料庫——數據倉庫的根與源 3
1.2.2 數據倉庫與傳統資料庫的區別 4
1.3 數據倉庫的產生原因 4
1.3.1 數據囚籠現象 5
1.3.2 信息孤島現象 6
1.3.3 相互矛盾的信息流 6
1.3.4 集成的解決辦法 7
1.3.5 動力和動機 8
1.4 管理信息系統的“上層建築” 9
1.4.1 管理層次的概念 9
1.4.2 中層和上層管理存在的系統真空 10
1.4.3 數據倉庫系統套用的基本作用 10
1.4.4 數據倉庫套用的基本目標 12
1.4.5 數據倉庫套用成功的保障 12
1.5 電子商務與電子政務 12
1.5.1 現代社會中的電子商務與電子政務 13
1.5.2 以客戶為中心的現代社會環境 14
1.5.3 電子商務與電子政務提高了服務效率 15
1.6 數據倉庫的ROI(回報投入比) 17
1.7 在線上綜合分析系統中數據倉庫的套用 19
1.8 挑戰和趨勢 20
第2章 數據倉庫的總體結構 25
2.1 金字塔結構 25
2.2 數據倉庫的結構與環境 29
2.3 準備區——數據源和數據倉庫之間的過渡 32
2.4 元數據與模型 32
2.4.1 元數據的定義 34
2.4.2 元數據的作用 34
2.4.3 元數據和模型的整建 35
2.4.4 命名法 35
2.4.5 元數據存儲區 36
2.4.6 元數據的維護和套用 37
2.4.7 元數據的定義和管理 39
2.4.8 統一元數據標準和元數據交換 43
2.5 多維數據結構 46
2.5.1 星型結構 46
2.5.2 雪花型結構 48
2.5.3 混雜型結構 49
2.5.4 度量套用舉例 50
2.6 映像 50
2.6.1 映像的含義 52
2.6.2 數據遷移和轉換的過程 52
2.6.3 抽象與映像層次 54
2.6.4 應變式映像策略 57
2.6.5 映像類型 58
2.7 滾動綜合數據 59
2.8 在線上分析處理 63
2.8.1 在線上分析處理——數據倉庫的自然延伸 64
2.8.2 在線上分析處理系統的集成 64
2.8.3 維的作用 65
2.8.4 對多維數據方陣的連結和分析 65
2.8.5 方陣系列的設計要點 66
2.8.6 總計數據的自動更新 67
2.8.7 報表構架 67
2.8.8 在線上分析處理(OLAP)的解決辦法 67
2.8.9 表示工具 68
2.8.10 表示工具的預處理 68
2.9 數據發掘 69
2.9.1 數據發掘的重要性 69
2.9.2 數據發掘的方法與技術 70
2.10 實現閉環的在線上分析處理 71
2.11 卸載操作型資料庫與保護數據源 74
2.11.1 數據源——企業最重要的信息資產 74
2.11.2 操作型事務處理資料庫的特徵 74
2.11.3 決策支持資料庫系統的特點 74
2.11.4 兩種作業混合的弊端 75
2.11.5 回顧過去作業的局限性 75
2.11.6 卸載 76
2.11.7 雙贏的解決辦法 78
2.12 數據倉庫的三要素 79
2.13 多維總計方陣 81
2.13.1 從基本數據到綜合信息 81
2.13.2 方陣是在線上分析的基礎結構 81
2.13.3 方陣的類型 82
2.13.4 方陣的卸載與底層數據表的禁止 85
2.13.5 刷新 86
2.13.6 方陣的設計要點 87
2.13.7 從數據倉庫基本數據(事實/維)到最終分析報告的映像 88
2.14 ETL(提取—轉換—載入)從數據源到目標 89
2.14.1 數據的啟程 90
2.14.2 數據標準化的準備工作和數據清洗的工具字典 90
2.14.3 粒度與聚合數據 90
2.14.4 魔力無邊的巨型章魚 91
2.14.5 數據倉庫的數據追加 91
2.14.6 提取—轉換—載入處理的映像過程 92
2.14.7 作業順序、依賴關係和進程控制 92
2.14.8 從數據源進入數據倉庫到以分析報表輸出 93
2.14.9 數據提取—轉換—載入的主要流程和會話期流程 94
2.15 從數據源到目標——Informatica 97
2.16 數據倉庫在網際網路環境下的套用 98
2.16.1 客戶-伺服器系統的特點 99
2.16.2 網際網路數據倉庫的特點 100
2.16.3 設計指南 101
2.16.4 安全性技術 102
第3章 數據倉庫套用實例 104
3.1 分散式數據倉庫——獨立的資料庫接口 104
3.2 共享式數據倉庫——共享式支票信用認可網路 107
3.3 某飛機製造公司——單源生產數據 108
3.4 汽車銷售管理網路——數據倉庫支持下的在線上分析報表 109
第4章 數據倉庫套用開發的策略與過程 111
4.1 數據倉庫開發策略 111
4.2 跳躍(蛙跳)式發展 113
4.2.1 數據倉庫的演變史 113
4.2.2 建立真正的數據倉庫 114
4.3 數據倉庫系統平台 115
4.3.1 觀察數據倉庫系統的基本結構 116
4.3.2 多層結構環境 116
4.3.3 多層次、多分區系統 117
4.3.4 堅實的胡桃 117
4.3.5 表示層與核心的部署 118
4.3.6 套用軟體的基本結構 118
4.4 數據倉庫套用開發的要點與特徵 121
4.4.1 數據倉庫套用的命題/主題確定 123
4.4.2 往復循環式開發數據倉庫 127
4.4.3 建立數據集市 133
4.5 數據倉庫設計質量 134
4.5.1 數據倉庫質量的重要性 134
4.5.2 數據質量保障 134
4.5.3 數據質量保障的環境和各個處理環節 135
4.5.4 錯誤檢測 136
4.5.5 質量保障系統 137
4.5.6 及時發現錯誤 138
4.5.7 錯誤追蹤 138
4.5.8 解決劣質數據 144
4.6 數據倉庫套用開發保障技術 144
4.6.1 知識與智慧財產權的維護 145
4.6.2 團隊 147
4.7 數據倉庫安全性與有關技術 152
4.7.1 識別安全威脅的類型與攻擊方法 153
4.7.2 安全性防範思想與布局 155
4.7.3 安全性策略與技術 155
4.7.4 數據倉庫安全性的套用結構設計技術 157
第5章 數據倉庫設計與套用開發 160
5.1 數據倉庫的概念設計 161
5.1.1 概念設計 162
5.1.2 元數據定義及管理 162
5.1.3 數據結構概圖 163
5.1.4 數據倉庫的基本表 164
5.1.5 從邏輯設計到物理設計 165
5.2 數據倉庫的物理設計 165
5.2.1 事實表設計 166
5.2.2 維數 169
5.2.3 分區 173
5.2.4 索引設計 175
5.2.5 完整性約束設計 176
5.2.6 實體化視圖設計 177
5.3 數據提取—轉換—載入(ETL) 188
5.3.1 建立事件映像 189
5.3.2 建立視圖或實體化視圖與視圖模擬 189
5.3.3 ETL過程舉例 189
5.3.4 提取—轉換—載入的方法 192
5.3.5 數據的標準化與規範化 193
5.3.6 數據清洗與實例 195
5.3.7 數據提取—轉換—載入工具 198
5.3.8 數據提取 200
5.3.9 載入和轉換 204
5.3.10 數據提取—轉換—載入的主流程 209
5.4 綜合管理 212
5.4.1 總體構架 212
5.4.2 匯總準備 214
5.4.3 報表準備工作的基礎——從數據倉庫生成並刷新實體化視圖 214
5.4.4 刷新實體化視圖 214
5.4.5 監控數據倉庫的刷新 216
5.4.6 實體化視圖的管理要點 218
5.5 在線上分析處理(OLAP) 219
5.5.1 SQL與綜合函式 219
5.5.2 多維分析技術 220
5.5.3 數據倉庫SQL總計分析語句結構與流程 221
5.5.4 綜合SQL和函式的套用 222
5.5.5 SQL和分析函式 235
5.6 報表發布 242
5.6.1 表示系統軟體工具的聯用——從後台到前台 242
5.6.2 建立報表的過程 244
5.6.3 對多維方陣的鑽入/聚合操作 244
5.6.4 表示工具的預處理 245
5.6.5 套用SQL分析伺服器 245
5.7 報表系統構架 250
5.7.1 報表系統構架及其支撐結構 251
5.7.2 從資料庫生成XML數據 251
5.7.3 建立報表函式館 259
5.7.4 建立報表程式庫 288
5.7.5 報表系統構架及其支撐結構 301
5.7.6 套用表函式 312