數據處理與知識發現

內容簡介

本書系統地介紹了數據預處理､數據倉庫和數據挖掘的原理､方法及套用技術, 以及採用Mahout 對相應的挖掘算法進行實際練習｡本書共有11 章, 分為兩大部分｡第1 ~7 章為理論部分｡第1 章為緒論, 介紹了數據挖掘與知識發現領域中的一些基本理論､研究方法等, 也簡單介紹了Hadoop 生態系統中的Mahout; 第2 ~7 章按知識發現的過程, 介紹數據預處理的方法和技術､數據倉庫的構建與OLAP 技術､數據挖掘原理及算法(包括關聯規則挖掘､聚類分析方法､分類規則挖掘)､常見的數據挖掘工具與產品｡第8 ~11 章為實驗部分, 採用Mahout 對數據挖掘各類算法進行實際練習｡本書套用性較強, 與實踐相結合, 以小數據集為例詳細介紹各種挖掘算法, 使讀者更易掌握挖掘算法的基本原理及過程; 使用廣泛的大數據平台———Hadoop 生態系統中的Mahout 對各種挖掘算法進行實際練習, 實戰性強, 也符合目前數據處理與挖掘的發展趨勢｡本書既便於教師課堂講授, 又便於自學者閱讀, 可作為高等院校高年級學生“數據挖掘技術” “數據倉庫與數據挖掘” “數據處理與智慧型決策”等課程的教材｡

圖書目錄

前言

上篇理論部分

第1 章緒論 2

1. 1 KDD 與數據挖掘 2

1. 1. 1 KDD 的定義 2

1. 1. 2 KDD 過程與數據挖掘 3

1. 2 數據挖掘的對象 4

1. 3 數據挖掘的任務 8

1. 4 Mahout 簡介 12

1. 4. 1 Mahout 12

1. 4. 2 Mahout 算法庫 13

1. 4. 3 Mahout 套用 16

1. 5 小結 17

1. 6 習題 17

第2 章數據預處理 18

2. 1 數據概述 18

2. 1. 1 屬性與度量 19

2. 1. 2 數據集的類型 23

2. 2 數據預處理 27

2. 2. 1 數據預處理概述 28

2. 2. 2 數據清理 30

2. 2. 3 數據集成 34

2. 2. 4 數據變換 38

2. 2. 5 數據歸約 40

2. 2. 6 離散化與概念分層 48

2. 3 小結 52

2. 4 習題 53

第3 章數據倉庫 55

3. 1 數據倉庫概述 55

3. 1. 1 從資料庫到數據倉庫 55

3. 1. 2 數據倉庫 56

3. 1. 3 數據倉庫系統結構 59

3. 1. 4 數據倉庫中的名詞 59

3. 2 數據倉庫的ETL 60

3. 2. 1 ETL 的基本概念 60

數據處理與知識發現

基本介紹

內容簡介

圖書目錄

相關詞條

熱門詞條