數據倉庫與數據挖掘(2015年人民郵電出版社出版的圖書)

成書過程

編寫背景

數據是信息世界的基礎性資源，因為體量巨大、種類繁多、變化快速、真實質差等問題，導致難以發揮數據的價值。為此，產生了數據倉庫與數據挖掘，主要研究如何管理、分析和利用數據。

編寫情況

在該書正式出版前，編者在教學實踐中一直採用其前身——《數據倉庫與數據挖掘講義》。該講義自2010年以來，先後在武漢大學、北京理工大學、武漢理工大學使用。使用期間，典型案例不斷被完善，在案例分析翔實度、軟體工程思想體現方面也逐步改進和補充。該書由多位教師集體編著，編者包括北京理工大學的袁漢寧副教授、王樹良教授、金福生副教授、宋紅教授，以及IBM軟體集團中國區合作夥伴技術支持（BPTS）高級信息工程師程永。在該書的編寫過程中，編者邀請學生全程參與，包括課堂討論、作業講評、內容規劃、資料蒐集、書稿一讀再讀等。博士研究生李延、王大魁、李草原、李東偉等參與了資料採集工作，並且在討論中作出建設性發言，在閱讀中發現問題並給出修改建議。

出版工作

該書獲得IBM大學合作項目書籍出版資助，以及國家自然科學基金、高等學校博士學科點專項科研基金的支持。2015年7月，《數據倉庫與數據挖掘》由人民郵電出版社出版發行。

出版工作人員

責任編輯	責任印製	封面設計
鄒文波	沈蓉、彭志環	董志楨

內容簡介

該書共分9章，將數據視為基礎資源，根據軟體工程的思想，依次介紹了數據利用的發展過程，總結了數據倉庫和數據ETL的基礎知識，詳述了數據倉庫和數據ETL的工具，研究了數據挖掘的任務及其挑戰性問題，給出了經典的數據挖掘算法，介紹了數據挖掘的工具與產品，剖析了稅務數據挖掘的案例，最後結合實際工具，就大數據的管理和套用給出了編者的見解。

教材目錄

第1章數據倉庫和數據挖掘概述 1

1.1 概述 1

1.1.1 數據倉庫和數據挖掘的目標 1

1.1.2 數據倉庫與數據挖掘的發展歷程 2

1.2 數據中心 4

1.2.1 關係型數據中心 4

1.2.2 非關係型數據中心 4

1.2.3 混合型數據中心（大數據平台） 6

1.3 混合型數據中心參考架構 7

1.3.1 基礎設施層 8

1.3.2 數據源層 8

1.3.3 交換服務體系 8

1.3.4 數據存儲區 9

1.3.5 基礎服務層 10

1.3.6 套用層 12

1.3.7 用戶終端層 12

1.3.8 數據治理 12

1.3.9 元數據管理 12

1.3.10 IT安全運維管理 13

1.3.11 IT綜合監控 14

1.3.12 企業資產管理 14

思考題 14

第2章數據 15

2.1 數據的概念 15

2.2 數據的內容 15

2.2.1 實時數據與歷史數據 15

2.2.2 事務數據與時態數據 16

2.2.3 圖形數據與圖像數據 16

2.2.4 主題數據與全局數據 17

2.2.5 空間數據 17

2.2.6 序列數據和數據流 18

2.2.7 元數據與數據字典 19

2.3 數據屬性及數據集 20

2.4 數據特徵的統計描述 21

2.4.1 集中趨勢 21

2.4.2 離散程度 23

2.4.3 數據的分布形狀 24

2.5 數據的可視化 24

2.6 數據相似性與相異性的度量 27

2.7 數據質量 30

2.8 數據預處理 31

2.8.1 被污染的數據 31

2.8.2 數據清理 33

2.8.3 數據集成 34

2.8.4 數據變換 35

2.8.5 數據規約 36

思考題 36

第3章數據倉庫與數據ETL基礎 37

3.1 從資料庫到數據倉庫 37

3.2 數據倉庫的結構 38

3.2.1 兩層體系結構 39

3.2.2 三層體系結構 39

3.2.3 組成元素 40

3.3 數據倉庫的數據模型 41

3.3.1 概念模型 41

3.3.2 邏輯模型 41

3.3.3 物理模型 44

3.4 ETL 44

3.4.1 數據抽取 45

3.4.2 數據轉換 46

3.4.3 數據載入 46

3.5 OLAP 47

3.5.1 維 47

3.5.2 OLAP與OLTP 47

3.5.3 OLAP的基本操作 48

3.6 OLAP的數據模型 49

3.6.1 ROLAP 49

3.6.2 MOLAP 50

3.6.3 HOLAP 50

思考題 51

第4章數據倉庫和ETL工具 52

4.1 IBM DB2 V10 52

4.1.1 自適應壓縮 52

4.1.2 多溫度存儲 53

4.1.3 時間旅行查詢 54

4.1.4 DB2兼容性功能 58

4.1.5 工作負載管理 58

4.1.6 PureXML 60

4.1.7 當前已落實 61

4.1.8 DB2 PureScale Feature 61

4.1.9 分區特性 63

4.1.10 並行技術 65

4.1.11 SQW 65

4.1.12 Cubing Services 65

4.1.13 列式存儲及壓縮技術 66

4.2 InfoSphere Datastage 68

4.2.1 基於Information Server的架構 69

4.2.2 企業級實施和管理 72

4.2.3 高擴展的體系架構 75

4.2.4 具備線性擴充能力 77

4.2.5 ETL元數據管理 78

4.3 InfoSphere QualityStage 78

思考題 80

第5章數據挖掘基礎 81

5.1 數據挖掘的起源 81

5.2 數據挖掘的定義 82

5.3 數據挖掘的任務 83

5.3.1 分類 83

5.3.2 回歸分析 85

5.3.3 相關分析 85

5.3.4 聚類分析 85

5.3.5 關聯規則 87

5.3.6 異常檢測 88

5.4 數據挖掘標準流程 88

5.4.1 商業理解 89

5.4.2 數據理解 90

5.4.3 數據準備 90

5.4.4 建立模型 90

5.4.5 模型評估 89

5.4.6 發布 91

5.5 數據挖掘的十大挑戰性問題 91

5.5.1 數據挖掘統一理論的探索 91

5.5.2 高維數據和高速數據流的研究與套用 92

5.5.3 時序數據的挖掘與降噪 92

5.5.4 從複雜數據中尋找複雜知識 92

5.5.5 網路環境中的數據挖掘 92

5.5.6 分散式數據挖掘 93

5.5.7 生物醫學和環境科學數據挖掘 93

5.5.8 數據挖掘過程自動化與可視化 93

5.5.9 信息安全與隱私保護 93

5.5.10 動態、不平衡及成本敏感數據的挖掘 93

思考題 94

第6章數據挖掘算法 95

6.1 算法評估概述 95

6.1.1 分類算法及評估指標 95

6.1.2 聚類算法及其評價指標 97

6.2 C4.5 99

6.2.1 資訊理論基礎知識 100

6.2.2 ID3算法 102

6.2.3 C4.5算法 104

6.2.4 C4.5算法的實現 105

6.2.5 C4.5的軟體實現 107

6.3 CART算法 109

6.3.1 算法介紹 109

6.3.2 算法描述 112

6.4 K-Means算法 113

6.4.1 基礎知識 113

6.4.2 算法描述 114

6.4.3 算法的軟體實現 115

6.5 SVM算法 116

6.5.1 線性可分SVM 116

6.5.2 線性不可分SVM 118

6.5.3 參數設定 121

6.5.4 SVM算法的軟體實現 123

6.6 Apriori算法 125

6.6.1 基本概念 125

6.6.2 Apriori算法 126

6.6.3 Apriori算法示例 129

6.6.4 Apriori算法的軟體實現 131

6.7 EM算法 131

6.7.1 算法描述 132

6.7.2 基於EM的混合高斯聚類 133

6.7.3 算法的軟體實現 134

6.8 PageRank 135

6.8.1 PageRank算法發展背景 135

6.8.2 PageRank算法描述 135

6.8.3 PageRank算法發展 138

6.9 Adaboost算法 139

6.9.1 集成學習 139

6.9.2 Adaboost算法描述 140

6.9.3 Adaboost算法實驗 141

6.10 KNN算法 142

6.10.1 KNN算法描述 142

6.10.2 KNN算法的軟體實現 144

6.11 Naive Bayes 144

6.11.1 基礎知識 145

6.11.2 算法描述 145

6.11.3 NaiveBayes軟體實現 147

思考題 148

第7章數據挖掘工具與產品 149

7.1 數據挖掘工具概述 149

7.1.1 發展過程 149

7.1.2 基本類型 149

7.1.3 開發者與使用者 150

7.2 商業數據挖掘工具IBM SPSS Modeler 151

7.2.1 產品概述 151

7.2.2 可視化數據挖掘 153

7.2.3 SPSS Modeler技術說明 156

7.2.4 SPSS Modeler的數據挖掘套用 157

7.3 開源數據挖掘工具WEKA 158

7.3.1 WEKA數據格式 159

7.3.2 WEKA的使用 160

思考題 161

第8章數據挖掘案例 162

8.1 概述 162

8.2 納稅評估示例 162

8.2.1 納稅評估監控等級預測的方法 163

8.2.2 構建稅務行業數據中心 164

8.2.3 構建納稅評估監控等級模型 166

8.3 稅收預測建模示例 168

8.4 稅務行業納稅人客戶細分探索 171

8.4.1 客戶細分概述 171

8.4.2 客戶細分的主要研究方法 171

8.4.3 構建客戶細分模型 171

8.5 基於Hadoop平台的數據挖掘 175

8.5.1 基於IBM SPSS Analytic Server的數據挖掘 175

8.5.2 基於R的數據挖掘 175

思考題 176

第9章大數據管理 177

9.1 什麼是大數據 177

9.2 Hadoop介紹 178

9.3 NoSQL介紹 180

9.3.1 CAP定理 181

9.3.2 一致性 181

9.3.3 ACID模型 182

9.3.4 BASE模型 182

9.3.5 MoreSQL/NewSQL 182

9.4 InfoSphere BigInsights 3.0介紹 183

9.4.1 Big SQL 3.0 184

9.4.2 企業集成 190

9.4.3 GPFS-FPO 192

9.4.4 IBM Adaptive MR 192

9.4.5 BigSheets 193

9.4.6 高級文本分析 195

9.4.7 Solr 195

9.4.8 改進工作負載調度 196

9.4.9 壓縮 197

思考題 198

參考文獻 199

（註：目錄排版順序為從左列至右列）

教學資源

課程資源

《數據倉庫與數據挖掘》配有同名慕課——“數據倉庫與數據挖掘”。

課程名稱	建設院校	授課平台	授課教師
數據倉庫與數據挖掘	北京理工大學	中國大學MOOC	袁漢寧、王樹良、耿晶、金福生

教材特色

該書立意新穎，結構合理；強調基礎，注重套用，重視實例；堅持理論聯繫實踐，從學生中來，為學生服務；和市場結合，為市場服務；既重視理論知識的講解，又強調套用技能的培養，重點介紹面向專業領域的典型案例。全書面向數據的特點和未來趨勢，利用軟體工程的思想，根據數據倉庫與數據挖掘的內在聯繫，在一個統一框架內，講述了數據倉庫和數據挖掘的核心內容。

數據倉庫與數據挖掘(2015年人民郵電出版社出版的圖書)

基本介紹