《數據倉庫結構設計與實施:建造信息系統的金字塔》是2009年電子工業出版社出版的圖書,作者是池太崴。
基本介紹
- 書名:數據倉庫結構設計與實施:建造信息系統的金字塔
- 作者:池太崴
- ISBN:9787121081385
- 類別:資料庫
- 頁數:336頁
- 定價:49.00元
- 出版社:電子工業出版社
- 出版時間:2009-3-1
- 裝幀:平裝
- 開本:16開
- 字數:314000
內容簡介,前言,概述,目錄,
內容簡介
該書將從數據倉庫技術背景、技術結構框架、開發和套用等方面,結合作者在數據倉庫技術實施過程中的實際經驗,通過實例闡述了數據倉庫開發生命周期在各個階段的特點和策略運用,以及在管理信息系統中的位置和作用,並講解了數據倉庫設計與套用開發的建立過程及實施。
本書共分5章,涉及數據倉庫的基本概念、定義及主要特點;根據數據倉庫的基礎技術和結構概念,採用從元數據、多維數據結構、在線上分析處理、數據挖掘、數據倉庫的基礎部件到在線上和成品分析報告一條龍的方法,描述了數據倉庫設計與開發生命周期的各個階段以及相應的技術結構框架;另外,還提供了大量的套用實例,如支票信用認可網路系統、某飛機製造公司單源生產數據、汽車銷售管理網路系統等多個工程開發的成功案例;同時,本書還介紹了數據倉庫開發過程和策略,主要有跳躍(蛙跳)式發展、數據倉庫系統多層次的結構平台——核心與外殼、數據倉庫套用開發的要點與特徵、數據倉庫設計、質量保障、任務、資源、團隊、技能等基本內容;最後,通過一系列程式實例,講解了數據倉庫設計與套用開發的建立過程,以及SQL程式在Oracle 9i和SQL Server 分析伺服器平台上的實施情況,包括概念設計、物理設計、ETL、總合管理、在線上分析、SQL分析和報表構架等詳細技術說明。
本書以成功實踐為基礎,理論與技術實踐密切結合,結構緊湊,內容新穎,圖文並茂,論述精闢,可作為高等院校信息技術和管理專業、資料庫專業教學與研究的教材;同時也適合從事信息系統研究與工程套用開發的廣大科技人員作為學習與指導的參考讀物。
前言
隨著信息技術處理的迅速發展,尤其是管理決策分析支持系統的迫切需要,數據倉庫(Data Warehousing,簡稱DW)的新概念、新方法、新技術在信息技術領域已成為研究和套用的熱點,並日益成熟,成為信息技術套用領域的前沿技術。實踐證明,數據倉庫在提高決策支持水平、信息質量、應變能力等方面具有重要意義。信息處理技術已從單純的在線上事務處理,進入了數據倉庫、在線上分析處理、數據挖掘、業務智慧型的時代。
在本書中引用了《孫子兵法》的一些論述。眾所周知,《孫子兵法》是中國古代的戰略思想的結晶。令人驚訝的是,孫子的許多論述和思想仍然適用於我們今天豐富多彩的生活與鬥爭,包括在信息技術開發領域。比如其廟算說(戰前策劃計算)是決戰決勝的先決條件,非常類似今天的在線上分析和決策支持的意義和作用;如治眾如治寡是用來解決現實世界的複雜性的法寶,在這裡提出和大家共勉。
在本書的編寫過程中,曾得到國內許多人士的大力幫助和支持。羅曉沛教授提出了很有價值的指導意見,劉德貴研究員為本書的審編作了重要的工作。池太峰、趙玉梅、張之豐、朱軍、朱煒等人在本書的編寫、命題論證以及審編校對等方面提供了大力幫助和支持,作了大量的工作,使本書得以完成,在此深表謝意。
因作者水平有限,錯漏之處在所難免,希望讀者批評指正。
池太崴
2008年12月
概述
數據倉庫技術在操作型資料庫的基礎上對數據的進一步集成和分析提出了更明確的目標和解決方案,其概念、方法、套用技術、功能得到了廣泛套用,給用戶帶來了巨大的競爭優勢。對我國各領域和各企業而言,在建立或發展自己的信息系統的過程中,進行全面而長遠的規劃尤其重要,它能夠加快信息技術實施速度並少走彎路,避免時間、人力、資源的浪費及重複建設。如何在現有的資料庫上建立數據倉庫,如何考慮它的結構、外部環境和內在關係,如何使數據倉庫真正成為戰略決策的基礎系統等問題顯得日益突出。
數據倉庫是管理信息系統的“上層建築”,它集成了許多不同的源數據系統,從而構成中央式的信息集成平台,同時也是信息的轉化平台,它將原生數據轉化為信息,進一步轉化為有用的知識和業務智慧型,並實現了對管理決策分析的支持。今天,越來越多的部門和機構開始接受並開發數據倉庫,並把它作為信息集成的解決方案和決策支持系統工具,以迎接日趨激烈的社會和商業管理的挑戰和競爭。
本書將從數據倉庫技術背景、技術結構框架、開發和套用等方面,結合作者在數據倉庫技術實施過程中的實際經驗,深刻闡述數據倉庫開發生命周期在各個階段的特點和策略運用,以及在管理信息系統中的位置和作用。
無論我們打造一個什麼樣的信息系統,結構總是一個需要認真考慮的首要問題,本書旨在介紹和探索數據倉庫的基礎技術和結構概念(如多層次結構),因為結構設計為數據倉庫開發以及各種決策支持系統奠定基礎。當我們對許多信息系統開始進行以集成為目標的基礎結構改造的時候,它將變得更為重要。希望讀者能夠從中獲益,有所借鑑。
筆者於20世紀90年代初,在美國麥克尼斯州立大學計算機系獲得碩士學位。過去的十幾年至今,一直在數據倉庫建立和開發的前沿,在北美許多領域中完成或參與了多個大型套用項目,並指導過許多項目的設計與開發,取得了顯著的成效。在數據倉庫、資料庫設計和系統分析與集成方面經歷了許多實戰的磨練和理論知識教育。同時也積累了很多有價值的總體系統規劃實踐及大型項目的開發和研究經驗,包括正反兩方面的經驗教訓。為了把這些成功的實施經驗介紹給國內的廣大讀者和套用開發研究人員,本著從繁到簡、從具體到一般的原則,運用抽象化的圖形描述和具體程式示例,編寫了本書。實踐經驗的總結、案例的闡述說明和通俗易懂的圖形描述是本書的最大特點
目錄
第1章 數據倉庫技術與套用概述
1.1 數據倉庫的基本概念 2
1.1.1 數據倉庫的系統體系 2
1.1.2 數據倉庫的套用目標 3
1.2 數據倉庫與常規事務處理資料庫的區別與聯繫 3
1.2.1 從數據倉庫到操作型資料庫——數據倉庫的根與源 3
1.2.2 數據倉庫與傳統資料庫的區別 4
1.3 數據倉庫的產生原因 4
1.3.1 數據囚籠現象 5
1.3.2 信息孤島現象 6
1.3.3 相互矛盾的信息流 6
1.3.4 集成的解決辦法 7
1.3.5 動力和動機 8
1.4 管理信息系統的“上層建築” 9
1.4.1 管理層次的概念 9
1.4.2 中層和上層管理存在的系統真空 10
1.4.3 數據倉庫系統套用的基本作用 10
1.4.4 數據倉庫套用的基本目標 12
1.4.5 數據倉庫套用成功的保障 12
1.5 電子商務與電子政務 12
1.5.1 現代社會中的電子商務與電子政務 13
1.5.2 以客戶為中心的現代社會環境 14
1.5.3 電子商務與電子政務提高了服務效率 15
1.6 數據倉庫的ROI(回報投入比) 17
1.7 在線上綜合分析系統中數據倉庫的套用 19
1.8 挑戰和趨勢 20
第2章 數據倉庫的總體結構
2.1 金字塔結構 25
2.2 數據倉庫的結構與環境 29
2.3 準備區——數據源和數據倉庫之間的過渡 32
2.4 元數據與模型 32
2.4.1 元數據的定義 34
2.4.2 元數據的作用 34
2.4.3 元數據和模型的整建 35
2.4.4 命名法 35
2.4.5 元數據存儲區 36
2.4.6 元數據的維護和套用 37
2.4.7 元數據的定義和管理 39
2.4.8 統一元數據標準和元數據交換 43
2.5 多維數據結構 46
2.5.1 星型結構 46
2.5.2 雪花型結構 48
2.5.3 混雜型結構 49
2.5.4 度量套用舉例 50
2.6 映像 50
2.6.1 映像的含義 52
2.6.2 數據遷移和轉換的過程 52
2.6.3 抽象與映像層次 54
2.6.4 應變式映像策略 57
2.6.5 映像類型 58
2.7 滾動綜合數據 59
2.8 在線上分析處理 63
2.8.1 在線上分析處理——數據倉庫的自然延伸 64
2.8.2 在線上分析處理系統的集成 64
2.8.3 維的作用 65
2.8.4 對多維數據方陣的連結和分析 65
2.8.5 方陣系列的設計要點 66
2.8.6 總計數據的自動更新 67
2.8.7 報表構架 67
2.8.8 在線上分析處理(OLAP)的解決辦法 67
2.8.9 表示工具 68
2.8.10 表示工具的預處理 68
2.9 數據發掘 69
2.9.1 數據發掘的重要性 69
2.9.2 數據發掘的方法與技術 70
2.10 實現閉環的在線上分析處理 71
2.11 卸載操作型資料庫與保護數據源 74
2.11.1 數據源——企業最重要的信息資產 74
2.11.2 操作型事務處理資料庫的特徵 74
2.11.3 決策支持資料庫系統的特點 74
2.11.4 兩種作業混合的弊端 75
2.11.5 回顧過去作業的局限性 75
2.11.6 卸載 76
2.11.7 雙贏的解決辦法 78
2.12 數據倉庫的三要素 79
2.13 多維總計方陣 81
2.13.1 從基本數據到綜合信息 81
2.13.2 方陣是在線上分析的基礎結構 81
2.13.3 方陣的類型 82
2.13.4 方陣的卸載與底層數據表的禁止 85
2.13.5 刷新 86
2.13.6 方陣的設計要點 87
2.13.7 從數據倉庫基本數據(事實/維)到最終分析報告的映像 88
2.14 ETL(提取—轉換—載入)從數據源到目標 89
2.14.1 數據的啟程 90
2.14.2 數據標準化的準備工作和數據清洗的工具字典 90
2.14.3 粒度與聚合數據 90
2.14.4 魔力無邊的巨型章魚 91
2.14.5 數據倉庫的數據追加 91
2.14.6 提取—轉換—載入處理的映像過程 92
2.14.7 作業順序、依賴關係和進程控制 92
2.14.8 從數據源進入數據倉庫到以分析報表輸出 93
2.14.9 數據提取—轉換—載入的主要流程和會話期流程 94
2.15 從數據源到目標——Informatica 97
2.16 數據倉庫在網際網路環境下的套用 98
2.16.1 客戶-伺服器系統的特點 99
2.16.2 網際網路數據倉庫的特點 100
2.16.3 設計指南 101
2.16.4 安全性技術 102
第3章 數據倉庫套用實例
3.1 分散式數據倉庫——獨立的資料庫接口 104
3.2 共享式數據倉庫——共享式支票信用認可網路 107
3.3 某飛機製造公司——單源生產數據 108
3.4 汽車銷售管理網路——數據倉庫支持下的在線上分析報表 109
第4章 數據倉庫套用開發的策略與過程
4.1 數據倉庫開發策略 111
4.2 跳躍(蛙跳)式發展 113
4.2.1 數據倉庫的演變史 113
4.2.2 建立真正的數據倉庫 114
4.3 數據倉庫系統平台 115
4.3.1 觀察數據倉庫系統的基本結構 116
4.3.2 多層結構環境 116
4.3.3 多層次、多分區系統 117
4.3.4 堅實的胡桃 117
4.3.5 表示層與核心的部署 118
4.3.6 套用軟體的基本結構 118
4.4 數據倉庫套用開發的要點與特徵 121
4.4.1 數據倉庫套用的命題/主題確定 123
4.4.2 往復循環式開發數據倉庫 127
4.4.3 建立數據集市 133
4.5 數據倉庫設計質量 134
4.5.1 數據倉庫質量的重要性 134
4.5.2 數據質量保障 134
4.5.3 數據質量保障的環境和各個處理環節 135
4.5.4 錯誤檢測 136
4.5.5 質量保障系統 137
4.5.6 及時發現錯誤 138
4.5.7 錯誤追蹤 138
4.5.8 解決劣質數據 144
4.6 數據倉庫套用開發保障技術 144
4.6.1 知識與智慧財產權的維護 145
4.6.2 團隊 147
4.7 數據倉庫安全性與有關技術 152
4.7.1 識別安全威脅的類型與攻擊方法 153
4.7.2 安全性防範思想與布局 155
4.7.3 安全性策略與技術 155
4.7.4 數據倉庫安全性的套用結構設計技術 157
第5章 數據倉庫設計與套用開發
5.1 數據倉庫的概念設計 161
5.1.1 概念設計 162
5.1.2 元數據定義及管理 162
5.1.3 數據結構概圖 163
5.1.4 數據倉庫的基本表 164
5.1.5 從邏輯設計到物理設計 165
5.2 數據倉庫的物理設計 165
5.2.1 事實表設計 166
5.2.2 維數 169
5.2.3 分區 173
5.2.4 索引設計 175
5.2.5 完整性約束設計 176
5.2.6 實體化視圖設計 177
5.3 數據提取—轉換—載入(ETL) 188
5.3.1 建立事件映像 189
5.3.2 建立視圖或實體化視圖與視圖模擬 189
5.3.3 ETL過程舉例 189
5.3.4 提取—轉換—載入的方法 192
5.3.5 數據的標準化與規範化 193
5.3.6 數據清洗與實例 195
5.3.7 數據提取—轉換—載入工具 198
5.3.8 數據提取 200
5.3.9 載入和轉換 204
5.3.10 數據提取—轉換—載入的主流程 209
5.4 綜合管理 212
5.4.1 總體構架 212
5.4.2 匯總準備 214
5.4.3 報表準備工作的基礎——從數據倉庫生成並刷新實體化視圖 214
5.4.4 刷新實體化視圖 214
5.4.5 監控數據倉庫的刷新 216
5.4.6 實體化視圖的管理要點 218
5.5 在線上分析處理(OLAP) 219
5.5.1 SQL與綜合函式 219
5.5.2 多維分析技術 220
5.5.3 數據倉庫SQL總計分析語句結構與流程 221
5.5.4 綜合SQL和函式的套用 222
5.5.5 SQL和分析函式 235
5.6 報表發布 242
5.6.1 表示系統軟體工具的聯用——從後台到前台 242
5.6.2 建立報表的過程 244
5.6.3 對多維方陣的鑽入/聚合操作 244
5.6.4 表示工具的預處理 245
5.6.5 套用SQL分析伺服器 245
5.7 報表系統構架 250
5.7.1 報表系統構架及其支撐結構 251
5.7.2 從資料庫生成XML數據 251
5.7.3 建立報表函式館 259
5.7.4 建立報表程式庫 288
5.7.5 報表系統構架及其支撐結構 301
5.7.6 套用表函式 312