數據分析與數據挖掘

數據分析與數據挖掘

《數據分析與數據挖掘》是2018年4月清華大學出版社出版的圖書,作者是喻梅、於健。

基本介紹

  • 書名:數據分析與數據挖掘
  • 作者:喻梅、於健
  • ISBN:9787302493662
  • 定價:39.50元
  • 出版社:清華大學出版社
  • 出版時間:2018年4月
內容簡介,圖書目錄,

內容簡介

《數據分析與數據挖掘》主要介精符射符紹數據挖掘和數據分析的基本概念和方法,包括數據的基本屬性和概念、數據預處理技術、數據立方體和OLAP技術、頻繁模式挖掘、回歸分析、分類、聚類、離群點分析。書中涉及到的模型和算法均給予了相應的實例。

圖書目錄

第1章概述1
1.1數據分析與數據挖掘1
1.1.1數據分紋危汗析1
1.1.2數據挖愚閥掘1
1.1.3區別和聯繫3
1.2分析與挖掘的數據類型3
1.3數據分析與數據挖掘的方法7
1.4數據分析與數據挖掘使用的技術9
1.5套用場景及存在的問題12
1.5.1數據分析與數據挖掘的套用12
1.5.2存在的主要問題13
1.6本書結構概述14
1.7習題14
第2章數據15
2.1數據對象與屬性類別15
2.1.1屬性的定義15
2.1.2屬性的分類15
2.2數據基本統計描述16
2.2.1中心趨勢度量17
2.2.2數據散布度量19
2.2.3數據的圖形顯示甩廈阿臭20
2.3數據的相似性和相異性度量25
2.3.1數據矩陣與相異性矩陣25
2.3.2標稱屬性的鄰近性度量25
2.3.3二元屬殃鴉頸性的鄰近性度量26
2.3.4數值屬性的相異性27
2.3.5序數屬性的鄰近性度量29
2.3.6餘弦相似性30
2.4習題30數據分析與數據挖掘第3章數據預處理32
3.1數據預處理及任務32
3.1.1數據預處理的必要性32
3.1.2數據預處理的主要您嬸試任務34
3.2數據清理35
3.2.1缺失值、噪聲和不一致數據的處理35
3.2.2數據清理方式38
3.3數據集成39
3.4數據歸約42
3.4.1直方圖43
3.4.2數據立方體聚集44
3.4.3屬性子集選擇45
3.4.4抽樣46
3.5數據變換與數據離散化47
3.5.1數據變換策略及分類47
3.5.2數據泛化47
3.5.3數據規範化48
3.5.4數據離散化49
3.6習題51
第4章數據倉庫與OLAP52
4.1數據倉庫的基本概念52
4.1.1數據倉庫的定義52
4.1.2數據倉庫的性質52
4.1.3數據倉庫體系結構53
4.1.4數據倉庫設計模型54
4.2數據倉庫設計55
4.2.1數據倉庫的概念模厚乘慨型設計55
4.2.2數據倉庫的邏輯模型設計58
4.2.3數據倉庫的物理模型設計60
4.3數據倉庫實現61
4.4在線上分析處理70
4.4.1OLAP簡介71
4.4.2OLAP與OLTP的關係72
4.4.3典型的OLAP操作73
4.5元數據模型76
4.5.1元數據的類型77
4.5.2元數據的作用77
4.5.3元數據的使用78
4.6習題79
第5章回歸分析80
5.1回歸分析概述80
5.1.1變數間的兩類關係80
5.1.2回歸分析的步驟81
5.2一元線性回歸82
5.2.1原理分析82
5.2.2回歸方程求解及模型檢驗82
5.2.3一元線性回歸實例85
5.2.4案例分析: 使用Weka實現一元線性回歸88
5.3多元線性回歸94
5.3.1原理分析94
5.3.2回歸方程求解及模型檢驗95
5.3.3多元線性回歸實例97
5.3.4案例分析: 使用Weka實現多元線性回歸99
5.4多項式回歸102
5.4.1原理分析102
5.4.2多項式回歸實例103
5.4.3案例分析: 使用Excel實現多項式回歸104
5.5習題111
第6章頻繁模式挖掘113
6.1概述113
6.1.1案例分析114
6.1.2相關概念114
6.1.3先驗性質116
6.2關聯模式評估117
6.2.1支持度置信度框架117
6.2.2相關性分析117
6.2.3模式評估度量119
6.3Apriori算法120
6.3.1Apriori算法分析120
6.3.2案例分析: 使用Weka實現Apriori算法124
6.4FPgrowth算法129
6.4.1FPgrowth算法分析129
6.4.2案例分析: 使用Weka實現FPgrowth算法133
6.5壓縮頻繁項集136
6.5.1挖掘閉模式136
6.5.2挖掘極大模式136
6.6習題137
第7章分類139
7.1分類概述139
7.1.1分類的基本概念139
7.1.2分類的相關知識139
7.1.3分類的評價指標143
7.2決策樹144
7.2.1決策樹基本概念144
7.2.2決策樹分類器的算法過程145
7.2.3ID3算法146
7.2.4C4.5算法149
7.2.5Weka中使用C4.5算法進行分類預測實例151
7.2.6決策樹的剪枝156
7.2.7隨機森林算法157
7.2.8使用Weka的隨機森林進行分類預測160
7.3樸素貝葉斯分類164
7.3.1樸素貝葉斯學習基本原理164
7.3.2樸素貝葉斯分類過程165
7.3.3使用Weka的樸素貝葉斯分類器進行分類實例166
7.4惰性學習法170
7.4.1K近鄰算法描述170
7.4.2K近鄰算法性能172
7.4.3使用Weka進行K近鄰分類實例173
7.5邏輯回歸176
7.5.1邏輯回歸基本概念176
7.5.2二項邏輯回歸過程177
7.5.3使用邏輯回歸分類算法的實例179
7.5.4使用Weka進行邏輯回歸分類實例180
7.6支持向量機183
7.6.1線性可分支持向量機算法184
7.6.2線性可分支持向量機算法過程188
7.6.3使用Weka進行支持向量機分類實例189
7.7神經網路192
7.7.1神經網路基本概念192
7.7.2BP神經網路算法過程194
7.7.3BP神經網路分類算法的實例196
7.7.4使用Weka進行神經網路的分類實例198
7.8習題205
第8章聚類207
8.1聚類概述207
8.1.1聚類的基本概念207
8.1.2聚類算法的分類208
8.2基於劃分的聚類210
8.2.1K均值算法210
8.2.2K中心點算法214
8.2.3使用Weka進行基於劃分的聚類實例217
8.3基於層次的聚類221
8.3.1基於層次的聚類的基本概念221
8.3.2類間距離度量222
8.3.3分裂層次聚類222
8.3.4凝聚層次聚類224
8.3.5BIRCH算法226
8.3.6使用Weka進行基於層次的聚類實例228
8.4基於密度的聚類233
8.4.1基於密度的聚類的基本概念233
8.4.2DBSCAN算法233
8.4.3使用Weka進行基於密度的聚類實例236
8.5基於格線的聚類241
8.5.1基於格線的聚類的基本概念241
8.5.2STING算法241
8.5.3CLIQUE算法243
8.6聚類質量的評估245
8.7習題247
第9章離群點檢測248
9.1離群點的定義與類型248
9.1.1離群點的定義248
9.1.2離群點類型249
9.2離群點的檢測250
9.2.1檢測方法的分類250
9.2.2統計學方法251
9.2.3近鄰性方法253
9.2.4基於聚類的方法255
9.2.5基於分類的方法258
9.3習題259
附錄AWeka的安裝及使用規範260
A.1Weka的安裝260
A.1.1Weka260
A.1.2JRE的安裝260
A.1.3Weka的安裝263
A.2Weka使用方法267
A.3Weka數據格式271
參考文獻275
4.5.2元數據的作用77
4.5.3元數據的使用78
4.6習題79
第5章回歸分析80
5.1回歸分析概述80
5.1.1變數間的兩類關係80
5.1.2回歸分析的步驟81
5.2一元線性回歸82
5.2.1原理分析82
5.2.2回歸方程求解及模型檢驗82
5.2.3一元線性回歸實例85
5.2.4案例分析: 使用Weka實現一元線性回歸88
5.3多元線性回歸94
5.3.1原理分析94
5.3.2回歸方程求解及模型檢驗95
5.3.3多元線性回歸實例97
5.3.4案例分析: 使用Weka實現多元線性回歸99
5.4多項式回歸102
5.4.1原理分析102
5.4.2多項式回歸實例103
5.4.3案例分析: 使用Excel實現多項式回歸104
5.5習題111
第6章頻繁模式挖掘113
6.1概述113
6.1.1案例分析114
6.1.2相關概念114
6.1.3先驗性質116
6.2關聯模式評估117
6.2.1支持度置信度框架117
6.2.2相關性分析117
6.2.3模式評估度量119
6.3Apriori算法120
6.3.1Apriori算法分析120
6.3.2案例分析: 使用Weka實現Apriori算法124
6.4FPgrowth算法129
6.4.1FPgrowth算法分析129
6.4.2案例分析: 使用Weka實現FPgrowth算法133
6.5壓縮頻繁項集136
6.5.1挖掘閉模式136
6.5.2挖掘極大模式136
6.6習題137
第7章分類139
7.1分類概述139
7.1.1分類的基本概念139
7.1.2分類的相關知識139
7.1.3分類的評價指標143
7.2決策樹144
7.2.1決策樹基本概念144
7.2.2決策樹分類器的算法過程145
7.2.3ID3算法146
7.2.4C4.5算法149
7.2.5Weka中使用C4.5算法進行分類預測實例151
7.2.6決策樹的剪枝156
7.2.7隨機森林算法157
7.2.8使用Weka的隨機森林進行分類預測160
7.3樸素貝葉斯分類164
7.3.1樸素貝葉斯學習基本原理164
7.3.2樸素貝葉斯分類過程165
7.3.3使用Weka的樸素貝葉斯分類器進行分類實例166
7.4惰性學習法170
7.4.1K近鄰算法描述170
7.4.2K近鄰算法性能172
7.4.3使用Weka進行K近鄰分類實例173
7.5邏輯回歸176
7.5.1邏輯回歸基本概念176
7.5.2二項邏輯回歸過程177
7.5.3使用邏輯回歸分類算法的實例179
7.5.4使用Weka進行邏輯回歸分類實例180
7.6支持向量機183
7.6.1線性可分支持向量機算法184
7.6.2線性可分支持向量機算法過程188
7.6.3使用Weka進行支持向量機分類實例189
7.7神經網路192
7.7.1神經網路基本概念192
7.7.2BP神經網路算法過程194
7.7.3BP神經網路分類算法的實例196
7.7.4使用Weka進行神經網路的分類實例198
7.8習題205
第8章聚類207
8.1聚類概述207
8.1.1聚類的基本概念207
8.1.2聚類算法的分類208
8.2基於劃分的聚類210
8.2.1K均值算法210
8.2.2K中心點算法214
8.2.3使用Weka進行基於劃分的聚類實例217
8.3基於層次的聚類221
8.3.1基於層次的聚類的基本概念221
8.3.2類間距離度量222
8.3.3分裂層次聚類222
8.3.4凝聚層次聚類224
8.3.5BIRCH算法226
8.3.6使用Weka進行基於層次的聚類實例228
8.4基於密度的聚類233
8.4.1基於密度的聚類的基本概念233
8.4.2DBSCAN算法233
8.4.3使用Weka進行基於密度的聚類實例236
8.5基於格線的聚類241
8.5.1基於格線的聚類的基本概念241
8.5.2STING算法241
8.5.3CLIQUE算法243
8.6聚類質量的評估245
8.7習題247
第9章離群點檢測248
9.1離群點的定義與類型248
9.1.1離群點的定義248
9.1.2離群點類型249
9.2離群點的檢測250
9.2.1檢測方法的分類250
9.2.2統計學方法251
9.2.3近鄰性方法253
9.2.4基於聚類的方法255
9.2.5基於分類的方法258
9.3習題259
附錄AWeka的安裝及使用規範260
A.1Weka的安裝260
A.1.1Weka260
A.1.2JRE的安裝260
A.1.3Weka的安裝263
A.2Weka使用方法267
A.3Weka數據格式271
參考文獻275

相關詞條

熱門詞條

聯絡我們