數據挖掘算法與套用(Python實現)

數據挖掘算法與套用(Python實現)

《數據挖掘算法與套用(Python實現)》是清華大學出版社2020年出版圖書,作者孫家澤 王曙燕

基本介紹

  • 書名:數據挖掘算法與套用(Python實現)
  • 作者:孫家澤 王曙燕
  • 出版社:清華大學出版社
  • ISBN:9787302563778 
內容簡介,目錄,

內容簡介

本教材以數據挖掘的經典算法為主線,基礎部分講清楚數據挖掘的過程和經典算法:數據探索、數據預處理、分類與回歸、聚類分析、關聯規則挖掘、偏差檢測等。同時增加實現套用部分,在套用實現部分,以Python作為描述語言,以解決某個套用的挖掘目標為前提,介紹案例背景,闡述分析方法與過程,完成模型構建,給出算法的具體實現,通過此項目的方法提升學生的算法理解和套用能力,適應當今大數據時代對於高級工程師的數據分析能力。

目錄

第1章數據挖掘導論/1
1.1為什麼進行數據挖掘2
1.1.1數據挖掘起源2
1.1.2數據挖掘是數據處理的高級階段3
1.2什麼是數據挖掘4
1.2.1廣義技術角度的定義4
1.2.2狹義技術角度的定義5
1.2.3商業角度的定義6
1.2.4數據挖掘與機器學習6
1.3挖掘什麼類型的數據7
1.3.1資料庫數據7
1.3.2數據倉庫數據8
1.3.3事務數據9
1.3.4其他類型的數據9
1.4能挖掘到什麼知識10
1.4.1廣義知識11
1.4.2關聯知識12
1.4.3聚類知識13
1.4.4分類知識13
1.4.5預測型知識14
1.4.6偏差型知識14
1.4.7有價值的知識15
1.5數據挖掘方法15
1.5.1統計學16
1.5.2機器學習16
1.5.3資料庫系統和數據倉庫18
1.5.4智慧型最佳化19
1.6數據挖掘過程20
1.6.1Fayyad數據挖掘模型20
1.6.2CRISPDM模型211.6.3CRISPDM案例25
1.6.4數據挖掘過程的工作量26
1.6.5數據挖掘需要的人員26
1.7數據挖掘套用27
1.7.1數據挖掘在市場行銷中的套用27
1.7.2數據挖掘在電信行業的套用28
1.7.3數據挖掘在銀行業的套用29
1.7.4數據挖掘在社交網路分析中的套用29
1.7.5數據挖掘在軟體工程中的套用30
1.8數據挖掘中的隱私權保護33
1.8.1侵犯隱私權的表現34
1.8.2保護隱私權的對策35
1.9數據挖掘課程學習方法和資源36
1.9.1數據挖掘課程學習方法36
1.9.2開源數據挖掘工具37
1.9.3經典測試數據集39
1.9.4著名國際會議和期刊40
1.10思考與練習41
數據挖掘算法與套用(Python實現)目錄第2章數據探索與預處理/43
2.1數據屬性類型44
2.2數據的統計描述45
2.2.1中心趨勢度量: 均值、中位數和眾數45
2.2.2度量數據散布47
2.3統計描述圖形49
2.4數據相似性度量53
2.4.1數據矩陣與相異性矩陣53
2.4.2標稱屬性的相異性度量54
2.4.3二元屬性的相異性度量54
2.4.4數值屬性的相異性56
2.4.5序數屬性的鄰近性度量58
2.5數據清洗59
2.5.1缺失值處理59
2.5.2噪聲數據處理62
2.5.3異常值處理67
2.6數據集成68
2.6.1實體識別問題68
2.6.2冗餘和相關分析69
2.6.3數據值衝突的檢測與處理71
2.7數據變換72
2.7.1數據變換策略概述72
2.7.2數據規範化72
2.7.3數據離散化和概念分層74
2.8數據歸約78
2.8.1數值歸約78
2.8.2屬性歸約81
2.9對數據預處理的點85
2.10思考與練習86
第3章關聯規則挖掘/87
3.1基本概念87
3.2Apriori算法89
3.2.1Apriori算法詳解90
3.2.2Apriori算法的例子95
3.2.3Apriori算法總結98
3.3FPGrowth算法98
3.3.1FPGrowth算法詳解99
3.3.2FPGrowth算法的例子108
3.4關聯規則評價109
3.5思考與練習112
第4章聚類分析/114
4.1聚類分析簡介114
4.2基於劃分的方法115
4.2.1kmeans算法115
4.2.2kmedoids算法118
4.3基於層次的方法120
4.3.1AGNES算法121
4.3.2DIANA算法122
4.3.3BIRCH算法124
4.4基於密度的方法129
4.5基於機率的聚類133
4.6聚類圖數據138
4.6.1聚類圖數據度量138
4.6.2複雜網路140
4.7聚類評估143
4.7.1估計聚類趨勢144
4.7.2確定簇數145
4.7.3測定聚類質量145
4.8思考與練習152
第5章分類/154
5.1基本概念154
5.1.1什麼是分類154
5.1.2分類的過程155
5.1.3分類器常見構造方法157
5.2KNN分類157
5.3貝葉斯分類160
5.3.1貝葉斯定理160
5.3.2樸素貝葉斯分類算法161
5.4決策樹分類164
5.4.1相關定義165
5.4.2CART算法原理166
5.4.3CART算法實例167
5.4.4CART算法的優缺點169
5.4.5ID3算法原理169
5.4.6ID3算法實例170
5.4.7ID3算法的優缺點175
5.4.8C4.5算法原理176
5.4.9C4.5算法實例176
5.4.10C4.5算法的優缺點184
5.4.113種算法的比較185
5.5分類算法評價185
5.5.1常用術語185
5.5.2評價指標186
5.5.3分類器性能的表示189
5.5.4分類器性能的評估方法192
5.6思考與練習193
第6章高級分類算法/195
6.1組合分類算法195
6.1.1算法起源195
6.1.2AdaBoost算法基本原理196
6.1.3分類器創建197
6.1.4算法實例199
6.1.5AdaBoost算法的優缺點206
6.2粒子群分類算法206
6.2.1粒子群最佳化算法簡介207
6.2.2基本粒子群最佳化算法207
6.2.3粒子群最佳化算法的特點209
6.2.4基於粒子群最佳化算法的分類器構造210
6.3支持向量機分類算法214
6.3.1支持向量機的基本概念214
6.3.2感知機模型215
6.3.3硬間隔支持向量機215
6.3.4軟間隔支持向量機219
6.3.5非線性支持向量機221
6.3.6支持向量機算法實例222
6.3.7支持向量機算法的優缺點224
6.4BP神經網路分類算法224
6.4.1算法起源224
6.4.2BP神經網路的理論基礎225
6.4.3BP神經網路基本原理229
6.4.4BP神經網路的學習機制230
6.4.5BP算法步驟233
6.4.6BP算法實例233
6.4.7BP算法的優缺點235
6.5思考與練習235
第7章Python數據分析/237
7.1搭建Python開發平台237
7.2Python數據分析庫238
7.2.1NumPy238
7.2.2Pandas246
7.2.3SciPy251
7.2.4ScikitLearn252
7.3Python數據可視化254
7.3.1Matplotlib254
7.3.2Seaborn261
7.3.3Bokeh265
7.4思考與練習267
第8章Python數據挖掘/269
8.1數據探索269
8.2數據預處理270
8.2.1數據清洗271
8.2.2數據集成275
8.2.3數據歸約277
8.2.4數據變換278
8.3聚類分析算法280
8.3.1kmeans算法280
8.3.2DBSCAN算法285
8.4關聯規則算法288
8.4.1Apriori算法288
8.4.2FP樹算法293
8.5分類算法298
8.5.1ID3算法299
8.5.2C4.5算法305
8.5.3KNN算法311
8.6思考與練習317
第9章鐵達尼號乘客生存率預測/318
9.1背景與挖掘目標318
9.2算法介紹318
9.2.1線性回歸算法318
9.2.2邏輯回歸算法320
9.2.3隨機森林算法322
9.3分析方法與過程326
9.3.1數據抽取326
9.3.2數據探索與分析327
9.3.3數據預處理330
9.3.4模型構建333
9.3.5模型檢驗335
9.4思考與練習336
第10章基於關聯規則的電影推薦/338
10.1選擇數據源338
10.2數據探索340
10.2.1異常值分析340
10.2.2周期性分析341
10.2.3統計量分析342
10.3數據預處理344
10.3.1數據載入344
10.3.2缺失值處理344
10.3.3異常值處理345
10.4數據挖掘算法實現346
10.5算法評估346
10.6主要代碼348
10.6.1頻繁項集生成代碼348
10.6.2關聯規則生成代碼350
10.6.3電影推薦代碼351
10.7思考與練習351
第11章航空公司客戶價值分析/353
11.1背景與挖掘目標353
11.2分析方法與過程353
11.2.1數據抽取355
11.2.2數據探索356
11.2.3數據預處理357
11.2.4模型構建359
11.2.5模型檢驗360
11.3思考與練習361
第12章基於協同過濾的音樂推薦/363
12.1推薦系統和協同過濾算法363
12.1.1推薦系統發展概況363
12.1.2基於用戶的協同過濾算法365
12.1.3基於項目的協同過濾算法368
12.1.4兩種算法的比較369
12.1.5協同過濾算法和基於內容的過濾算法比較370
12.1.6推薦系統的評價370
12.2音樂推薦371
12.2.1數據獲取371
12.2.2數據預處理372
12.2.3數據分析及算法設計372
12.2.4結果輸出和模型評價375
12.3思考與練習377
第13章基於支持向量機的手寫數字識別/378
13.1背景與支持向量機的概念378
13.1.1最優超平面378
13.1.2軟間隔378
13.1.3線性不可分問題379
13.1.4支持向量機類型379
13.1.5支持向量機舉例379
13.1.6支持向量機的套用381
13.2分析方法與過程382
13.2.1數據集介紹382
13.2.2數據集讀取383
13.2.3數據集可視化383
13.3模型構建384
13.4模型檢驗386
13.5思考與練習387
第14章基於神經網路的代碼壞味檢測/388
14.1神經網路388
14.2代碼壞味檢測389
14.2.1代碼壞味簡介389
14.2.2代碼壞味研究現狀391
14.2.3代碼壞味公開數據集392
14.3基於神經網路算法的代碼壞味檢測392
14.3.1準備數據392
14.3.2構建神經網路393
14.3.3訓練模型395
14.3.4生成預測結果398
14.4思考與練習399
參考文獻/400

相關詞條

熱門詞條

聯絡我們