數據挖掘-基礎篇

數據挖掘-基礎篇

《數據挖掘-基礎篇》是一本2020年機械工業出版社出版的圖書,作者是查魯·C.,阿加沃爾(Charu,C.,Aggarwal)著,王曉陽、王建勇、禹曉輝、陳世敏譯。本書深入探討了數據挖掘的各個方面。

基本介紹

  • 中文名:數據挖掘-基礎篇 
  • 作者:查魯·C.,阿加沃爾(Charu,C.,Aggarwal) 、王曉陽、王建勇、禹曉輝
  • 譯者:陳世敏
  • 出版社:機械工業出版社
  • ISBN:9787111670292
內容簡介,圖書目錄,作者簡介,

內容簡介

《數據挖掘》中文版分為基礎篇和進階篇,深入探討了數據挖掘的各個方面,從基礎知識到複雜的數據類型及其套用,涉及數據挖掘的各種問題領域。它超越了傳統上對數據挖掘問題的關注,引入了高級數據類型,例如文本、時間序列、離散序列、空間數據、圖數據和社交網路數據。到目前為止,還沒有一本書以如此全面和綜合的方式探討所有這些主題。
基礎篇(包括原書的第1-13章)詳細介紹了針對數據挖掘的四個主要問題(聚類、分類、關聯模式挖掘和異常分析)的各種解決方法、用於文本數據領域的特定挖掘方法,以及對於數據流的挖掘套用。
進階篇(包括原書的第14-20章)主要討論了用於不同數據領域(例如時序數據、序列數據、空間數據、圖數據)的特定挖掘方法,以及重要的數據挖掘套用(例如Web數據挖掘、排名、推薦、社交網路分析和隱私保護)。
本書在直觀解釋和數學細節上取得了很好的平衡,既包含研究人員需要的數學公式,又以簡單直觀的方式呈現出來,方便學生和從業人員(包括數學背景有限的人)閱讀。本書包括大量插圖、示例和練習,並把重點放在語義可解釋的示例上,特別適合作為高級數據挖掘課程的教材。

圖書目錄

目 錄
Data Mining: The Textbook
出版者的話
譯者序
前言
第1章 數據挖掘導論1
1.1 引言1
1.2 數據挖掘過程2
1.2.1 數據預處理階段4
1.2.2 分析階段5
1.3 基本數據類型5
1.3.1 非依賴型數據5
1.3.2 依賴型數據7
1.4 主要數據挖掘模組總覽11
1.4.1 關聯模式挖掘12
1.4.2 數據聚類13
1.4.3 異常檢測13
1.4.4 數據分類14
1.4.5 複雜數據類型對問題定義的影響15
1.5 可擴展性問題和數據流場景17
1.6 套用案例淺述17
1.6.1 商店商品布局17
1.6.2 客戶推薦18
1.6.3 醫療診斷18
1.6.4 Web日誌異常檢測19
1.7 小結19
1.8 文獻注釋19
1.9 練習題20
第2章 數據準備21
2.1 引言21
2.2 特徵提取和類型轉換22
2.2.1 特徵提取22
2.2.2 數據類型轉換23
2.3 數據清洗26
2.3.1 缺失項的處理27
2.3.2 錯誤項和不一致項的處理28
2.3.3 縮放與標準化29
2.4 數據約簡和轉換29
2.4.1 採樣30
2.4.2 特徵子集選取32
2.4.3 基於坐標軸旋轉的維度約簡32
2.4.4 基於類型轉換的降維39
2.5 小結47
2.6 文獻注釋48
2.7 練習題48
第3章 相似度和距離50
3.1 引言50
3.2 多維數據50
3.2.1 定量型數據51
3.2.2 類別型數據58
3.2.3 定量型和類別型的混合數據59
3.3 文本相似性度量60
3.4 時態的相似性度量61
3.4.1 時間序列相似性度量61
3.4.2 離散序列相似性度量65
3.5 圖的相似性度量67
3.5.1 單個圖中兩個節點之間的相似度67
3.5.2 兩個圖之間的相似度68
3.6 有監督的相似度函式69
3.7 小結70
3.8 文獻注釋70
3.9 練習題71
第4章 關聯模式挖掘73
4.1 引言73
4.2 頻繁模式挖掘模型74
4.3 關聯規則的生成框架76
4.4 頻繁項集挖掘算法77
4.4.1 暴力算法78
4.4.2 Apriori算法78
4.4.3 枚舉樹算法81
4.4.4 遞歸的基於後綴的模式生長方法89
4.5 替代模型:有趣模式96
4.5.1 統計相關係數97
4.5.2 χ2度量97
4.5.3 興趣比率98
4.5.4 對稱置信度98
4.5.5 列的餘弦係數98
4.5.6 Jaccard係數和min-hash技巧98
4.5.7 集體強度100
4.5.8 與負模式挖掘的關係100
4.6 有用的元算法100
4.6.1 採樣方法101
4.6.2 數據劃分集成法101
4.6.3 推廣到其他數據類型101
4.7 小結102
4.8 文獻注釋102
4.9 練習題104
第5章 關聯模式挖掘:高級概念106
5.1 引言106
5.2 模式匯總106
5.2.1 最大模式107
5.2.2 閉包模式108
5.2.3 近似頻繁模式109
5.3 模式查詢110
5.3.1 一次預處理多次查詢111
5.3.2 把限制條件放入模式挖掘115
5.4 關聯模式挖掘的套用115
5.4.1 與其他數據挖掘問題的關係115
5.4.2 購物籃分析116
5.4.3 用戶信息分析116
5.4.4 推薦和協同過濾116
5.4.5 Web日誌分析117
5.4.6 生物信息學117
5.4.7 套用於其他複雜數據類型117
5.5 小結118
5.6 文獻注釋118
5.7 練習題119
第6章 聚類分析120
6.1 引言120
6.2 聚類的特徵選取121
6.2.1 過濾模型121
6.2.2 包裝模型124
6.3 基於代表點的算法124
6.3.1 k-means算法127
6.3.2 k-means核心算法128
6.3.3 k-medians算法128
6.3.4 k-medoids算法129
6.4 層次聚類算法130
6.4.1 自底向上凝聚的方法131
6.4.2 自頂向下分裂的方法135
6.5 基於機率模型的算法135
6.6 基於格線和基於密度的算法139
6.6.1 基於格線的算法139
6.6.2 DBSCAN141
6.6.3 DENCLUE143
6.7 基於圖的算法147
6.8 非負矩陣分解149
6.9 聚類驗證153
6.9.1 內部驗證度量153
6.9.2 外部驗證度量155
6.9.3 評價158
6.10 小結158
6.11 文獻注釋158
6.12 練習題159
第7章 聚類分析:高級概念161
7.1 引言161
7.2 類別型數據的聚類162
7.2.1 基於代表點的算法162
7.2.2 層次算法164
7.2.3 機率算法165
7.2.4 基於圖的算法166
7.3 可擴展的數據聚類167
7.3.1 CLARANS167
7.3.2 BIRCH168
7.3.3 CURE169
7.4 高維數據聚類170
7.4.1 CLIQUE172
7.4.2 PROCLUS172
7.4.3 ORCLUS174
7.5 半監督聚類176
7.5.1 單點監督177
7.5.2 成對監督177
7.6 用戶監督聚類與可視化監督聚類178
7.6.1 現有聚類算法的變體178
7.6.2 可視化聚類179
7.7 集成聚類181
7.7.1 選擇不同的集成組件181
7.7.2 組合不同的集成組件182
7.8 聚類套用183
7.8.1 套用到其他數據挖掘問題183
7.8.2 客戶分類與協同過濾183
7.8.3 文本套用184
7.8.4 多媒體套用184
7.8.5 時態與序列套用184
7.8.6 社交網路分析184
7.9 小結184
7.10 文獻注釋184
7.11 練習題185
第8章 異常分析186
8.1 引言186
8.2 極值分析187
8.2.1 單變數極值分析188
8.2.2 多變數極值190
8.2.3 基於深度的方法191
8.3 機率模型192
8.4 異常檢測的聚類方法193
8.5 基於距離的異常檢測195
8.5.1 剪枝方法195
8.5.2 局部距離修正方法197
8.6 基於密度的方法200
8.6.1 基於統計直方圖和格線的技術200
8.6.2 核密度估計201
8.7 資訊理論模型201
8.8 異常點正確性203
8.8.1 方法論上的挑戰203
8.8.2 接收者工作特徵(ROC)曲線203
8.8.3 常見錯誤205
8.9 小結205
8.10 文獻注釋205
8.11 練習題206
第9章 異常分析:高級概念208
9.1 引言208
9.2 類別型數據上的異常檢測208
9.2.1 機率模型209
9.2.2 聚類和基於距離的方法210
9.2.3 二元和集合取值的數據210
9.3 高維異常檢測210
9.3.1 基於格線的罕見子空間探索212
9.3.2 隨機子空間採樣214
9.4 異常點集成分析215
9.4.1 根據成員獨立性的分類216
9.4.2 根據構成成員的分類217
9.4.3 歸一化與合併218
9.5 異常分析的套用219
9.5.1 質量控制和故障檢測219
9.5.2 金融詐欺和異常事件219
9.5.3 網站日誌分析219
9.5.4 入侵檢測套用219
9.5.5 生物學和醫學套用220
9.5.6 地球科學套用220
9.6 小結220
9.7 文獻注釋220
9.8 練習題221
第10章 數據分類222
10.1 引言222
10.2 分類的特徵選擇224
10.2.1 過濾模型224
10.2.2 包裝模型227
10.2.3 嵌入式模型228
10.3 決策樹228
10.3.1 劃分準則231
10.3.2 停止準則與剪枝232
10.4 基於規則的分類器233
10.4.1 決策樹規則生成234
10.4.2 順序覆蓋算法235
10.4.3 規則剪枝238
10.4.4 關聯分類器238
10.5 機率分類器239
10.5.1 樸素貝葉斯分類器239
10.5.2 邏輯回歸242
10.6 SVM245
10.6.1 線性可分數據的SVM245
10.6.2 不可分數據的SVM軟間隔實現250
10.6.3 非線性SVM252
10.6.4 核心技巧253
10.7 神經網路256
10.7.1 單層神經網路:感知器257
10.7.2 多層神經網路258
10.7.3 不同線性模型的比較260
10.8 基於實例的學習261
10.8.1 最近鄰分類器的設計差異261
10.9 分類器評估263
10.9.1 方法論問題263
10.9.2 量化問題265
10.10 小結269
10.11 文獻注釋269
10.12 練習題270
第11章 數據分類:高級概念272
11.1 引言272
11.2 多類別學習273
11.3 稀有類別學習274
11.3.1 樣例重加權275
11.3.2 樣例重採樣275
11.4 可擴展分類276
11.4.1 可擴展的決策樹276
11.4.2 可擴展的SVM277
11.5 數值型類別的回歸模型278
11.5.1 線性回歸278
11.5.2 主成分回歸281
11.5.3 廣義線性模型282
11.5.4 非線性和多項式回歸283
11.5.5 由決策樹至回歸樹284
11.5.6 模型有效性評估285
11.6 半監督學習285
11.6.1 通用元算法287
11.6.2 分類算法的具體變種288
11.6.3 基於圖的半監督學習290
11.6.4 對半監督學習的討論291
11.7 主動學習291
11.7.1 基於異構性的模型293
11.7.2 基於性能的模型294
11.7.3 基於代表性的模型295
11.8 集成方法296
11.8.1 為什麼集成分析有效297
11.8.2 偏差-方差折中的正式表述299
11.8.3 集成學習的具體實例化301
11.9 小結305
11.10 文獻注釋305
11.11 練習題306
第12章 數據流挖掘308
12.1 引言308
12.2 流中的概要數據結構309
12.2.1 蓄水池採樣309
12.2.2 海量域場景的概述結構315
12.3 數據流中的頻繁模式挖掘325
12.3.1 利用概要結構325
12.3.2 有損計數算法325
12.4 數據流聚類326
12.4.1 STREAM算法326
12.4.2 CluStream算法328
12.4.3 海量域場景的流聚類331
12.5 流的異常檢測332
12.5.1 單個數據點作為異常點332
12.5.2 聚集變化點作為異常點333
12.6 流分類335
12.6.1 VFDT家族335
12.6.2 有監督的微簇方法337
12.6.3 集成方法337
12.6.4 海量域流的分類337
12.7 小結338
12.8 文獻注釋338
12.9 練習題338
第13章 文本數據挖掘340
13.1 引言340
13.2 文檔準備和相似度計算341
13.2.1 文檔歸一化和相似度計算342
13.2.2 專用於Web文檔的預處理343
13.3 專用於文本的聚類方法344
13.3.1 基於代表點的算法344
13.3.2 機率算法346
13.3.3 同步發現文檔簇和詞簇347
13.4 主題建模349
13.4.1 維度約簡中的使用以及與潛在語義分析的對比351
13.4.2 聚類中的使用以及與機率聚類的對比353
13.4.3 PLSA的局限性354
13.5 專用於文本的分類方法354
13.5.1 基於實例的分類器354
13.5.2 貝葉斯分類器356
13.5.3 高維稀疏數據的SVM分類器358
13.6 新事物和首發故事檢測360
13.7 小結360
13.8 文獻注釋361
13.9 練習題361
參考文獻362

作者簡介

作者簡介:
查魯·C. 阿加沃爾(Charu C. Aggarwal)是IBM T. J. Watson研究中心的傑出研究人員,於1996年獲麻省理工學院博士學位。他對數據挖掘領域有著廣泛的研究,在國際會議和期刊上發表了250多篇論文,擁有80多項專利。他曾三次被評為IBM的“傑出發明人”,並曾獲得IBM公司獎、IBM傑出創新獎和兩項IBM傑出技術成就獎。他因為提出基於冷凝的數據挖掘中的隱私保護技術而獲得EDBT2014的時間檢驗獎。他還獲得了IEEE ICDM研究貢獻獎(2015),這是數據挖掘領域對具有突出貢獻的研究的兩個*高獎項之一。
他曾多次擔任ACM/IEEE知名國際學術會議的主席或程式委員會主席,並擔任大數據相關多個知名期刊的主編或編委。由於在知識發現和數據挖掘算法上的貢獻,他入選SIAM、ACM和IEEE的會士。
譯者簡介:
王曉陽 復旦大學特聘教授、博士生導師,中國計算機學會會士,ACM會員,IEEE高級會員。主要研究興趣為大數據分析、數據安全等。於復旦大學獲得計算機科學學士、碩士學位,於美國南加州大學獲得計算機科學博士學位。曾在美國喬治梅森大學、美國佛蒙特大學、美國國家科學基金會任職。2011年至今在復旦大學任職。主持多項美國國家科學基金項目、中國國家重點研發計畫項目、自然科學基金重點項目、上海市重大科研項目等,並發表過百餘篇高質量學術論文,現任Springer DSE期刊主編,IEEE ICDE會議系列、IEEE BigComp會議系列指導委員會委員,曾任CCF上海分部主席,IEEE ICDE 2012及ACM CIKM 2014總主席,WAIM會議系列指導委員會主席。曾獲得美國國家科學基金CAREER Award。
王建勇 清華大學計算機系教授,國際電器與電子工程師協會會士(IEEE Fellow),中國人工智慧學會會士(CAAI Fellow),江蘇省大數據安全與智慧型處理重點實驗室首屆學術委員會副主任。主要研究領域為數據挖掘及知識發現。迄今發表論文100餘篇(其中單篇*高引用2000餘次)。曾擔任IEEE ICDM’19、WISE’15、BioMedCom’14、WAIM’13、ADMA’11、NDBC’10等會議的程式委員會聯合主席以及IEEE TKDE、ACM TKDD和《軟體學報》等期刊的編委。入選2007年度教育部“新世紀優秀人才”支持計畫和2009年度日本大川研究基金資助計畫。獲得WWW’08的Best Posters Award、2009年度和2010年度HP實驗室創新研究獎以及教育部2013年度自然科學獎二等獎。
禹曉輝 南京大學學士、香港中文大學碩士、加拿大多倫多大學博士,加拿大約克大學副教授,山東大學兼職教授、博士生導師,中國計算機學會大數據專委會委員、資料庫專委會委員。研究工作主要集中在大數據管理和分析領域,研究方向涵蓋時空大數據處理與挖掘、面向人工智慧的數據管理、社交媒體挖掘等。主持加拿大自然科學與工程理事會基金、中國國家自然科學基金等多項國家和工業界資助的科研項目。在IEEE Trans. on Knowl. & Data Eng.及SIGMOD、VLDB、ICDE等國內外期刊和會議上發表高質量論文近100篇,是3項美國專利的發明人。曾任WAIM2015、CloudDM2015等知名國際會議的程式委員會主席,是國際期刊Information Systems(Elsevier)的編委、加拿大自然科學與工程理事會NSERC特邀評審專家。
陳世敏 中科院計算所研究員,中國科學院大學崗位教師,分別於1997年和1999年獲得清華大學計算機系學士和碩士學位,於2005年在美國卡內基梅隆大學獲得計算機科學博士學位。主要研究方向為資料庫系統和大數據系統。曾在SIGMOD、ISCA、VLDB、ASPLOS、ICDE、CIDR等頂級國際會議和ACM TODS、IEEE TKDE等頂級國際期刊發表過論文,並獲得ICDE’04 Best Paper、SIGMOD’01 Runner-up Best Paper和2008年體系結構國際會議年度頂級論文獎(Top Picks’08)。曾擔任PVLDB 2017、ICDE 2018、ICDCS 2016、CIKM 2014等會議的PC Area Chair,長期擔任大數據新硬體技術的主要Workshop HardBD的Co-Chair。

相關詞條

熱門詞條

聯絡我們