數據分析與數據挖掘(2020年清華大學出版社出版的圖書)

本詞條是多義詞,共3個義項
更多義項 ▼ 收起列表 ▲

《數據分析與數據挖掘》是2020年清華大學出版社出版的圖書,作者是喻梅。

基本介紹

  • 中文名:數據分析與數據挖掘
  • 作者:喻梅
  • 出版時間:2020年
  • 出版社:清華大學出版社
  • ISBN:9787302558682
內容簡介,圖書目錄,

內容簡介

本書主要介紹數據挖掘和數據分析的基本概念和方法,包括數據的基本屬性和概念、數據預處理技術、數據立方體和OLAP技術、頻繁模式挖掘、回歸分析、分類、聚類、離群點分析。每一部分先介紹基本概念、理論基礎、套用實例、思考習題。書中涉及的模型和算法均給予了相應的實例,便於讀者更好的理解和使用模型。

圖書目錄

第1章概述1
1.1數據分析與數據挖掘1
1.1.1數據分析1
1.1.2數據挖掘1
1.1.3數據分析與數據挖掘的區別和聯繫3
1.2分析與挖掘的數據類型3
1.3數據分析與數據挖掘的方法7
1.4數據分析與數據挖掘使用的技術8
1.5套用場景及存在的問題12
1.5.1數據分析與數據挖掘的套用12
1.5.2存在的主要問題13
1.6本書結構概述14
1.7習題14
第2章數據16
2.1數據對象與屬性類別16
2.1.1屬性的定義16
2.1.2屬性的分類16
2.2數據的基本統計描述17
2.2.1中心趨勢度量18
2.2.2數據分散度量20
2.2.3數據的圖形顯示22
2.3數據的相似性和相異性度量26
2.3.1數據矩陣與相異性矩陣26
2.3.2標稱屬性的鄰近性度量27
2.3.3二元屬性的鄰近性度量28
2.3.4數值屬性的相異性29
2.3.5序數屬性的鄰近性度量31
2.3.6混合類型屬性的相異性31
2.3.7餘弦相似性33目錄數據分析與數據挖掘(第2版)2.4習題34
第3章數據預處理36
3.1數據預處理及任務36
3.1.1數據預處理的必要性36
3.1.2數據預處理的主要任務39
3.2數據清理40
3.2.1缺失值、噪聲和不一致數據的處理40
3.2.2數據清理方式43
3.3數據集成44
3.4數據歸約49
3.4.1直方圖49
3.4.2數據立方體聚集50
3.4.3屬性子集選擇52
3.4.4抽樣53
3.5數據變換與數據離散化54
3.5.1數據變換策略及分類54
3.5.2數據泛化54
3.5.3數據規範化55
3.5.4數據離散化56
3.6習題58
第4章數據倉庫與在線上分析處理59
4.1數據倉庫基本概念59
4.1.1數據倉庫的定義59
4.1.2數據倉庫的性質59
4.1.3數據倉庫體系結構60
4.1.4數據倉庫設計模型61
4.2數據倉庫設計62
4.2.1數據倉庫的概念模型設計62
4.2.2數據倉庫的邏輯模型設計65
4.2.3數據倉庫的物理模型設計67
4.3數據倉庫實現68
4.4在線上分析處理81
4.4.1OLAP簡介81
4.4.2OLAP與OLTP的關係82
4.4.3典型的OLAP操作83
4.5元數據模型87
4.5.1元數據的類型88
4.5.2元數據的作用88
4.5.3元數據的使用89
4.6習題90
第5章回歸分析91
5.1回歸分析概述91
5.1.1變數間的兩類關係91
5.1.2回歸分析的步驟92
5.2一元線性回歸93
5.2.1原理分析93
5.2.2回歸方程求解及模型檢驗93
5.2.3一元線性回歸實例96
5.2.4案例分析: 使用Weka實現一元線性回歸99
5.3多元線性回歸105
5.3.1原理分析105
5.3.2回歸方程求解及模型檢驗106
5.3.3多元線性回歸實例108
5.3.4案例分析: 使用Weka實現多元線性回歸110
5.4多項式回歸113
5.4.1原理分析113
5.4.2多項式回歸實例114
5.4.3案例分析: 使用Excel實現多項式回歸117
5.5習題123
第6章頻繁模式挖掘125
6.1概述125
6.1.1案例分析126
6.1.2相關概念126
6.1.3先驗性質128
6.2Apriori算法129
6.2.1Apriori算法分析129
6.2.2案例分析: 使用Weka實現Apriori算法133
6.3FPgrowth算法139
6.3.1FPgrowth算法分析139
6.3.2案例分析: 使用Weka實現FPgrowth算法148
6.4壓縮頻繁項集151
6.4.1挖掘閉模式151
6.4.2挖掘極大模式152
6.5關聯模式評估152
6.5.1支持度置信度框架153
6.5.2相關性分析153
6.5.3模式評估度量155
6.6習題156
第7章分類157
7.1分類概述157
7.1.1分類的基本概念157
7.1.2分類的相關知識158
7.2決策樹162
7.2.1決策樹的基本概念162
7.2.2決策樹分類器的算法過程163
7.2.3ID3算法165
7.2.4C4.5算法172
7.2.5Weka中使用C4.5算法進行分類預測實例177
7.2.6決策樹的剪枝184
7.3樸素貝葉斯分類185
7.3.1樸素貝葉斯學習基本原理185
7.3.2樸素貝葉斯分類過程186
7.3.3使用Weka的樸素貝葉斯分類器進行分類實例187
7.4惰性學習法191
7.4.1k近鄰算法描述191
7.4.2k近鄰算法性能193
7.4.3使用Weka進行k近鄰分類實例194
7.5邏輯回歸196
7.5.1邏輯回歸的基本概念196
7.5.2二項邏輯回歸過程197
7.5.3用Weka進行邏輯回歸分類實例199
7.6支持向量機202
7.6.1線性可分支持向量機算法203
7.6.2線性可分支持向量機學習算法——最大間隔法207
7.6.3使用Weka進行支持向量機分類實例208
7.7神經網路210
7.7.1神經網路的基本概念210
7.7.2BP神經網路算法過程212
7.7.3BP神經網路分類算法實例214
7.7.4使用Weka進行神經網路分類實例216
7.8組合方法223
7.8.1組合方法概述223
7.8.2裝袋223
7.8.3提升230
7.8.4隨機森林算法234
7.9分類模型的評估248
7.9.1分類模型的評價指標248
7.9.2交叉驗證253
7.9.3自助法254
7.10習題255
第8章聚類257
8.1聚類概述257
8.1.1聚類的基本概念257
8.1.2聚類算法的分類258
8.2基於劃分的聚類260
8.2.1k均值算法260
8.2.2k中心點算法264
8.2.3使用Weka進行基於劃分的聚類實例268
8.3基於層次的聚類273
8.3.1基於層次的聚類的基本概念273
8.3.2簇間距離度量274
8.3.3分裂層次聚類274
8.3.4凝聚層次聚類276
8.3.5BIRCH算法278
8.3.6使用Weka進行基於層次的聚類實例282
8.4基於密度的聚類285
8.4.1基於密度的聚類的基本概念285
8.4.2DBSCAN算法286
8.4.3使用Weka進行基於密度的聚類實例290
8.5基於格線的聚類293
8.5.1STING算法294
8.5.2CLIQUE算法296
8.6聚類質量的評估299
8.7習題300
第9章離群點檢測301
9.1離群點的定義與類型301
9.1.1什麼是離群點301
9.1.2離群點的類型302
9.2離群點的檢測303
9.2.1檢測方法的分類303
9.2.2統計學方法304
9.2.3近鄰性方法307
9.2.4基於聚類的方法309
9.2.5基於分類的方法313
9.3習題314
附錄AWeka的安裝及使用規範315
A.1Weka簡介與安裝315
A.1.1Weka簡介315
A.1.2JRE的安裝315
A.1.3Weka的安裝318
A.2Weka的使用方法323
A.3Weka的數據格式326
參考文獻330

相關詞條

熱門詞條

聯絡我們