數據處理與知識發現

數據處理與知識發現

《數據處理與知識發現》是2018年機械工業出版社出版的圖書,作者是徐琴。

基本介紹

  • 中文名:數據處理與知識發現
  • 作者:徐琴
  • ISBN:9787111605843
  • 定價:45元
  • 出版社:機械工業出版社
  • 出版時間:2018年8月
  • 裝幀:平裝
  • 開本:16開
內容簡介,圖書目錄,

內容簡介

本書系統地介紹了數據預處理、數據倉庫和數據挖掘的原理、方法及套用技術, 以及採用Mahout 對相應的挖掘算法進行實際練習。本書共有11 章, 分為兩大部分。第1 ~7 章為理論部分。第1 章為緒論, 介紹了數據挖掘與知識發現領域中的一些基本理論、研究方法等, 也簡單介紹了Hadoop 生態系統中的Mahout; 第2 ~7 章按知識發現的過程, 介紹數據預處理的方法和技術、數據倉庫的構建與OLAP 技術、數據挖掘原理及算法(包括關聯規則挖掘、聚類分析方法、分類規則挖掘)、常見的數據挖掘工具與產品。第8 ~11 章為實驗部分, 採用Mahout 對數據挖掘各類算法進行實際練習。 本書套用性較強, 與實踐相結合, 以小數據集為例詳細介紹各種挖掘算法, 使讀者更易掌握挖掘算法的基本原理及過程; 使用廣泛的大數據平台———Hadoop 生態系統中的Mahout 對各種挖掘算法進行實際練習, 實戰性強, 也符合目前數據處理與挖掘的發展趨勢。 本書既便於教師課堂講授, 又便於自學者閱讀, 可作為高等院校高年級學生“數據挖掘技術” “數據倉庫與數據挖掘” “數據處理與智慧型決策”等課程的教材。

圖書目錄

目錄
前 言
上篇 理論部分
第1 章 緒論 2
1. 1 KDD 與數據挖掘 2
1. 1. 1 KDD 的定義 2
1. 1. 2 KDD 過程與數據挖掘 3
1. 2 數據挖掘的對象 4
1. 3 數據挖掘的任務 8
1. 4 Mahout 簡介 12
1. 4. 1 Mahout 12
1. 4. 2 Mahout 算法庫 13
1. 4. 3 Mahout 套用 16
1. 5 小結 17
1. 6 習題 17
第2 章 數據預處理 18
2. 1 數據概述 18
2. 1. 1 屬性與度量 19
2. 1. 2 數據集的類型 23
2. 2 數據預處理 27
2. 2. 1 數據預處理概述 28
2. 2. 2 數據清理 30
2. 2. 3 數據集成 34
2. 2. 4 數據變換 38
2. 2. 5 數據歸約 40
2. 2. 6 離散化與概念分層 48
2. 3 小結 52
2. 4 習題 53
第3 章 數據倉庫 55
3. 1 數據倉庫概述 55
3. 1. 1 從資料庫到數據倉庫 55
3. 1. 2 數據倉庫 56
3. 1. 3 數據倉庫系統結構 59
3. 1. 4 數據倉庫中的名詞 59
3. 2 數據倉庫的ETL 60
3. 2. 1 ETL 的基本概念 60
3. 2. 2 ETL 的工具 60
3. 3 元數據與外部數據 62
3. 3. 1 元數據的定義 62
3. 3. 2 元數據的存儲與管理 63
3. 3. 3 外部數據 64
3. 4 數據倉庫模型及數據倉庫的建立 65
3. 4. 1 多維數據模型 65
3. 4. 2 多維數據模型的建立 67
3. 5 在線上分析處理OLAP 技術 73
3. 5. 1 OLAP 概述 73
3. 5. 2 OLAP 與數據倉庫 75
3. 5. 3 OLAP 的模型 77
3. 5. 4 OLAP 的基本操作 79
3. 6 數據倉庫實例 80
3. 6. 1 數據倉庫的創建 81
3. 6. 2 數據的提取、轉換和載入 83
3. 7 小結 83
3. 8 習題 83
第4 章 關聯規則挖掘 84
4. 1 問題定義 85
4. 1. 1 購物籃分析 85
4. 1. 2 基本術語 85
4. 2 頻繁項集的產生 87
4. 2. 1 先驗原理 88
4. 2. 2 Apriori 算法的頻繁項集產生 90
4. 3 規則產生 94
4. 3. 1 基於置信度的剪枝 94
4. 3. 2 Apriori 算法中規則的產生 94
4. 4 FP-growth 算法 95
4. 5 多層關聯規則和多維關聯規則 99
4. 5. 1 多層關聯規則 99
4. 5. 2 多維關聯規則 102
4. 6 非二元屬性的關聯規則 103
4. 7 關聯規則的評估 104
4. 8 序列模式挖掘算法 106
4. 8. 1 序列模式的概念 106
4. 8. 2 Apriori 類算法———AprioriAll
算法 109
4. 9 小結 114
4. 10 習題 115
第5 章 聚類分析方法 118
5. 1 聚類分析概述 118
5. 1. 1 聚類的定義 118
5. 1. 2 聚類算法的要求 119
5. 1. 3 聚類算法的分類 120
5. 1. 4 相似性的測度 121
5. 2 基於劃分的聚類算法 126
5. 2. 1 基於質心的(Centroid-based)
劃分方法———基本K-means
聚類算法 126
5. 2. 2 K-means 聚類算法的拓展 128
5. 2. 3 基於中心的(Medoid-based)
劃分方法———PAM 算法 130
5. 3 層次聚類算法 133
5. 3. 1 AGNES 算法 136
5. 3. 3 改進算法———BIRCH 算法 137
5. 3. 4 改進算法———CURE 算法 141
5. 4 基於密度的聚類算法 143
5. 5 聚類算法評價 147
5. 6 離群點挖掘 149
5. 6. 1 相關問題概述 149
5. 6. 2 基於距離的方法 150
5. 6. 3 基於相對密度的方法 154
5. 7 小結 158
5. 8 習題 158
第6 章 分類規則挖掘 160
6. 1 分類問題概述 160
6. 2 最近鄰分類法 162
6. 2. 1 KNN 算法原理 162
6. 2. 2 KNN 算法的特點及改進 165
6. 2. 3 基於套用平台的KNN 算法套用
實例 166
6. 3 決策樹分類方法 167
6. 3. 1 決策樹概述 167
6. 3. 2 資訊理論 171
6. 3. 3 ID3 算法 172
6. 3. 4 算法改進: C4. 5 算法 176
6. 4 貝葉斯分類方法 180
6. 4. 1 貝葉斯定理 181
6. 4. 3 樸素貝葉斯分類方法的改進 185
6. 5 神經網路算法 188
6. 5. 1 前饋神經網路概述 188
6. 5. 2 學習前饋神經網路 189
6. 5. 3 BP 神經網路模型與學習算法 191
6. 6 回歸分析 193
6. 7 小結 196
6. 8 習題 197
第7 章 數據挖掘工具與產品 198
7. 1 評價數據挖掘產品的標準 198
7. 2 數據挖掘工具簡介 200
7. 3 數據挖掘的可視化 203
7. 3. 1 數據挖掘可視化的過程與方法 203
7. 3. 2 數據挖掘可視化的分類 204
7. 3. 3 數據挖掘可視化的工具 206
7. 4 Weka 207
7. 4. 1 Weka Explorer 208
7. 4. 2 Weka Experimenter 216
7. 4. 3 KnowledgeFlow 219
7. 5 小結 221
7. 6 習題 221
下篇 實驗部分
第8 章 Mahout 入門 224
8. 1 Mahout 安裝前的準備 224
8. 1. 1 安裝JDK 224
8. 1. 2 安裝Hadoop 227
8. 2 Mahout 的安裝 237
8. 3 測試安裝 238
8. 4 小結 239
第9 章 使用Mahout 實踐關聯規則
算法 240
9. 1 FP 樹關聯規則算法 240
9. 1. 1 Mahout 中Parallel Frequent Pattern
Mining 算法的實現原理 240
9. 1. 2 Mahout 的Parallel Frequent Pattern
Mining 算法實踐 243
9. 2 小結 246
第10 章 使用Mahout 實踐聚類
算法 247
10. 1 Canopy 算法 247
10. 1. 1 Mahout 中Canopy 算法的實現
原理 250
10. 1. 2 Mahout 中Canopy 算法實戰 251
10. 2 K-means 算法 254
10. 2. 1 Mahout 中K-means 算法的實現
原理 255
10. 2. 2 Mahout 中K-means 算法實戰 256
10. 3 小結 259
第11 章 使用Mahout 實踐分類算法 260
11. 1 Bayesian 算法 260
11. 1. 1 Mahout 中Bayesian 算法的實現
原理 261
11. 1. 2 Mahout 的Bayesian 算法實戰 262
11. 2 Random Forests 算法 270
11. 2. 1 Mahout 中Random Forests 算法的
實現原理 272
11. 2. 2 Mahout 的Random Forests 算法
實戰 275
11. 3 小結 279
參考文獻 280

相關詞條

熱門詞條

聯絡我們