基本介紹
- 書名:數據倉庫與數據挖掘
- 作者:袁漢寧、王樹良、程永、金福生、宋紅
- 類別:普通高等教育軟體工程“十二五”規劃教材、工業和信息化部“十二五”規劃教材
- 出版社:人民郵電出版社
- 出版時間:2015年7月
- 頁數:200 頁
- 開本:16 開
- 裝幀:平裝
- ISBN:9787115388278
- 字數:338千字
- CIP核字號:2015100204
成書過程
編寫背景
編寫情況
出版工作
責任編輯 | 責任印製 | 封面設計 |
---|---|---|
鄒文波 | 沈蓉、彭志環 | 董志楨 |
內容簡介
教材目錄
第1章 數據倉庫和數據挖掘概述 1 1.1 概述 1 1.1.1 數據倉庫和數據挖掘的目標 1 1.1.2 數據倉庫與數據挖掘的發展歷程 2 1.2 數據中心 4 1.2.1 關係型數據中心 4 1.2.2 非關係型數據中心 4 1.2.3 混合型數據中心(大數據平台) 6 1.3 混合型數據中心參考架構 7 1.3.1 基礎設施層 8 1.3.2 數據源層 8 1.3.3 交換服務體系 8 1.3.4 數據存儲區 9 1.3.5 基礎服務層 10 1.3.6 套用層 12 1.3.7 用戶終端層 12 1.3.8 數據治理 12 1.3.9 元數據管理 12 1.3.10 IT安全運維管理 13 1.3.11 IT綜合監控 14 1.3.12 企業資產管理 14 思考題 14 第2章 數據 15 2.1 數據的概念 15 2.2 數據的內容 15 2.2.1 實時數據與歷史數據 15 2.2.2 事務數據與時態數據 16 2.2.3 圖形數據與圖像數據 16 2.2.4 主題數據與全局數據 17 2.2.5 空間數據 17 2.2.6 序列數據和數據流 18 2.2.7 元數據與數據字典 19 2.3 數據屬性及數據集 20 2.4 數據特徵的統計描述 21 2.4.1 集中趨勢 21 2.4.2 離散程度 23 2.4.3 數據的分布形狀 24 2.5 數據的可視化 24 2.6 數據相似性與相異性的度量 27 2.7 數據質量 30 2.8 數據預處理 31 2.8.1 被污染的數據 31 2.8.2 數據清理 33 2.8.3 數據集成 34 2.8.4 數據變換 35 2.8.5 數據規約 36 思考題 36 第3章 數據倉庫與數據ETL基礎 37 3.1 從資料庫到數據倉庫 37 3.2 數據倉庫的結構 38 3.2.1 兩層體系結構 39 3.2.2 三層體系結構 39 3.2.3 組成元素 40 3.3 數據倉庫的數據模型 41 3.3.1 概念模型 41 3.3.2 邏輯模型 41 3.3.3 物理模型 44 3.4 ETL 44 3.4.1 數據抽取 45 3.4.2 數據轉換 46 3.4.3 數據載入 46 3.5 OLAP 47 3.5.1 維 47 3.5.2 OLAP與OLTP 47 3.5.3 OLAP的基本操作 48 3.6 OLAP的數據模型 49 3.6.1 ROLAP 49 3.6.2 MOLAP 50 3.6.3 HOLAP 50 思考題 51 第4章 數據倉庫和ETL工具 52 4.1 IBM DB2 V10 52 4.1.1 自適應壓縮 52 4.1.2 多溫度存儲 53 4.1.3 時間旅行查詢 54 4.1.4 DB2兼容性功能 58 4.1.5 工作負載管理 58 4.1.6 PureXML 60 4.1.7 當前已落實 61 4.1.8 DB2 PureScale Feature 61 4.1.9 分區特性 63 4.1.10 並行技術 65 4.1.11 SQW 65 4.1.12 Cubing Services 65 4.1.13 列式存儲及壓縮技術 66 4.2 InfoSphere Datastage 68 4.2.1 基於Information Server的架構 69 4.2.2 企業級實施和管理 72 4.2.3 高擴展的體系架構 75 4.2.4 具備線性擴充能力 77 4.2.5 ETL元數據管理 78 4.3 InfoSphere QualityStage 78 思考題 80 第5章 數據挖掘基礎 81 5.1 數據挖掘的起源 81 5.2 數據挖掘的定義 82 5.3 數據挖掘的任務 83 5.3.1 分類 83 5.3.2 回歸分析 85 5.3.3 相關分析 85 5.3.4 聚類分析 85 5.3.5 關聯規則 87 5.3.6 異常檢測 88 5.4 數據挖掘標準流程 88 5.4.1 商業理解 89 5.4.2 數據理解 90 5.4.3 數據準備 90 5.4.4 建立模型 90 5.4.5 模型評估 89 5.4.6 發布 91 | 5.5 數據挖掘的十大挑戰性問題 91 5.5.1 數據挖掘統一理論的探索 91 5.5.2 高維數據和高速數據流的研究與套用 92 5.5.3 時序數據的挖掘與降噪 92 5.5.4 從複雜數據中尋找複雜知識 92 5.5.5 網路環境中的數據挖掘 92 5.5.6 分散式數據挖掘 93 5.5.7 生物醫學和環境科學數據挖掘 93 5.5.8 數據挖掘過程自動化與可視化 93 5.5.9 信息安全與隱私保護 93 5.5.10 動態、不平衡及成本敏感數據的挖掘 93 思考題 94 第6章 數據挖掘算法 95 6.1 算法評估概述 95 6.1.1 分類算法及評估指標 95 6.1.2 聚類算法及其評價指標 97 6.2 C4.5 99 6.2.1 資訊理論基礎知識 100 6.2.2 ID3算法 102 6.2.3 C4.5算法 104 6.2.4 C4.5算法的實現 105 6.2.5 C4.5的軟體實現 107 6.3 CART算法 109 6.3.1 算法介紹 109 6.3.2 算法描述 112 6.4 K-Means算法 113 6.4.1 基礎知識 113 6.4.2 算法描述 114 6.4.3 算法的軟體實現 115 6.5 SVM算法 116 6.5.1 線性可分SVM 116 6.5.2 線性不可分SVM 118 6.5.3 參數設定 121 6.5.4 SVM算法的軟體實現 123 6.6 Apriori算法 125 6.6.1 基本概念 125 6.6.2 Apriori算法 126 6.6.3 Apriori算法示例 129 6.6.4 Apriori算法的軟體實現 131 6.7 EM算法 131 6.7.1 算法描述 132 6.7.2 基於EM的混合高斯聚類 133 6.7.3 算法的軟體實現 134 6.8 PageRank 135 6.8.1 PageRank算法發展背景 135 6.8.2 PageRank算法描述 135 6.8.3 PageRank算法發展 138 6.9 Adaboost算法 139 6.9.1 集成學習 139 6.9.2 Adaboost算法描述 140 6.9.3 Adaboost算法實驗 141 6.10 KNN算法 142 6.10.1 KNN算法描述 142 6.10.2 KNN算法的軟體實現 144 6.11 Naive Bayes 144 6.11.1 基礎知識 145 6.11.2 算法描述 145 6.11.3 NaiveBayes軟體實現 147 思考題 148 第7章 數據挖掘工具與產品 149 7.1 數據挖掘工具概述 149 7.1.1 發展過程 149 7.1.2 基本類型 149 7.1.3 開發者與使用者 150 7.2 商業數據挖掘工具IBM SPSS Modeler 151 7.2.1 產品概述 151 7.2.2 可視化數據挖掘 153 7.2.3 SPSS Modeler技術說明 156 7.2.4 SPSS Modeler的數據挖掘套用 157 7.3 開源數據挖掘工具WEKA 158 7.3.1 WEKA數據格式 159 7.3.2 WEKA的使用 160 思考題 161 第8章 數據挖掘案例 162 8.1 概述 162 8.2 納稅評估示例 162 8.2.1 納稅評估監控等級預測的方法 163 8.2.2 構建稅務行業數據中心 164 8.2.3 構建納稅評估監控等級模型 166 8.3 稅收預測建模示例 168 8.4 稅務行業納稅人客戶細分探索 171 8.4.1 客戶細分概述 171 8.4.2 客戶細分的主要研究方法 171 8.4.3 構建客戶細分模型 171 8.5 基於Hadoop平台的數據挖掘 175 8.5.1 基於IBM SPSS Analytic Server的數據挖掘 175 8.5.2 基於R的數據挖掘 175 思考題 176 第9章 大數據管理 177 9.1 什麼是大數據 177 9.2 Hadoop介紹 178 9.3 NoSQL介紹 180 9.3.1 CAP定理 181 9.3.2 一致性 181 9.3.3 ACID模型 182 9.3.4 BASE模型 182 9.3.5 MoreSQL/NewSQL 182 9.4 InfoSphere BigInsights 3.0介紹 183 9.4.1 Big SQL 3.0 184 9.4.2 企業集成 190 9.4.3 GPFS-FPO 192 9.4.4 IBM Adaptive MR 192 9.4.5 BigSheets 193 9.4.6 高級文本分析 195 9.4.7 Solr 195 9.4.8 改進工作負載調度 196 9.4.9 壓縮 197 思考題 198 參考文獻 199 |
教學資源
- 課程資源
課程名稱 | 建設院校 | 授課平台 | 授課教師 |
---|---|---|---|
數據倉庫與數據挖掘 | 北京理工大學 | 中國大學MOOC | 袁漢寧、王樹良、耿晶、金福生 |