大數據挖掘及套用(第2版)

《 大數據挖掘及套用(第2版)》是清華大學出版社出版圖書。

大數據挖掘及套用(第2版)
zhua曲子白渡白顆
  • 出版社: 清華大學出版社
  • ISBN:9787302585701
  • 版次:2
  • 商品編碼:13509742
  • 品牌:清華大學
  • 包裝:平裝
  • 開本:16開
  • 出版時間:2021-11-01
  • 用紙:膠版紙
  • 頁數:404
  • 字數:608000
內容簡介
本書圍繞大數據背景下的數據挖掘及套用技術,從大數據挖掘的基本概念入手,由淺入深、循序漸進地介紹大數據挖掘分析過程中的數據認知與預處理、數據可視化技術、數據挖掘的基本方法、Hadoop大數據分散式處理生態系統及分析套用等內容。其中數據挖掘的基本方法不僅包括數據關聯分析、數據分類分析及數據聚類分析,還包括深度學習等重要的數據挖掘研究和發展主題。作者對每一章的內容都儘量從不同的角度進行深入剖析,案例均採用Python語言編程。
本書既可以面向計算機科學與技術、數據科學與技術、人工智慧、智慧型科學與技術等信息類專業的本科生和研究生,也可以面向廣大的IT從業人員。全書不僅提供了全部案例的Python原始碼,還提供了豐富的習題和參考文獻,對讀者掌握大數據挖掘及套用領域的基本知識和進一步研究都具有參考價值。
目錄
第1章大數據挖掘及套用概論1
1.1大數據挖掘及套用的背景1
1.1.1從“小”到“大”的數據分析處理1
1.1.2大數據的智慧型分析與挖掘2
1.1.3大數據4
1.1.4雲計算5
1.2大數據挖掘的發展及挑戰7
1.2.1大數據的發展催生三元空間世界7
1.2.2大數據挖掘分析處理面臨的挑戰9
1.3數據挖掘概述11
1.3.1數據挖掘的概念11
1.3.2數據挖掘的功能11
1.3.3數據挖掘運用的技術13
1.3.4大數據挖掘與傳統數據挖掘的關係13
1.3.5數據分析過程的5個原則14
1.4大數據挖掘分析處理框架15
1.4.1大數據挖掘計算平台框架16
1.4.2大數據挖掘處理流程20
1.5小結22
1.6習題23
1.7參考文獻24
第2章數據認知與預處理25
2.1數據挖掘的定義和流程26
2.1.1如何理解和描述數據挖掘的問題26
2.1.2數據獲取與準備27
2.1.3數據質量評估28
2.2數據類型28
2.2.1屬性的定義29
2.2.2標稱屬性29
2.2.3二元屬性30
2.2.4序值屬性30
2.2.5數值屬性30
2.3數據的統計描述方法30
2.3.1數據的中心趨勢度量30
2.3.2數據的離散趨勢度量32
2.4數據對象關係的計算方法35
2.4.1對象相似性計算方法35
2.4.2數據相關性計算方法42
2.5數據準備44
2.5.1數據清洗與集成44
2.5.2數據歸約技術48
2.5.3數據轉換56
2.6數據統計分析常用工具介紹59
2.6.1Pandas統計分析工具59
2.6.2SPSS統計分析工具59
2.6.3SAS統計分析工具61
2.6.4R語言統計分析工具62
2.7Pandas案例分析65
2.7.1數據準備65
2.7.2數據錄入與編輯65
2.7.3數據清洗與轉換66
2.7.4數據方差分析68
2.7.5數據相關性分析69
2.7.6數據間距離分析71
2.8小結71
2.9習題72
2.10參考文獻73
第3章數據可視化技術74
3.1可視化簡介74
3.2高維數據可視化75
3.2.1降維方法76
3.2.2非降維方法78
3.3網路數據可視化84
3.3.1結點連結法84
3.3.2相鄰矩陣布局89
3.3.3混合布局91
3.4可視化案例分析92
3.4.1案例一: China VIS 2015 競賽題92
3.4.2案例二: VAST Challenge 2016競賽題99
3.5小結112
3.6習題113
3.7參考文獻113
第4章數據關聯分析方法114
4.1問題引入114
4.2基本概念116
4.2.1頻繁項集和關聯規則117
4.2.2閉頻繁項集和極大頻繁項集119
4.2.3稀有模式和負模式120
4.3APriori算法121
4.3.1APriori算法的核心思想122
4.3.2APriori算法描述123
4.3.3改進的APriori算法124
4.4FPGrowth算法130
4.4.1FPGrowth算法的核心思想130
4.4.2FPGrowth算法描述131
4.5關聯規則有效性的評估方法134
4.5.1關聯規則興趣度評估135
4.5.2關聯規則相關度評估135
4.5.3其他的評估度量方法136
4.6多維關聯規則的挖掘139
4.7多層關聯規則挖掘142
4.8案例分析(Python)146
4.8.1APriori算法146
4.8.2FPGrowth算法149
4.9小結154
4.10習題155
4.11參考文獻156
第5章數據分類分析方法158
5.1基本概念和術語158
5.1.1什麼是分類158
5.1.2解決分類問題的一般方法160
5.2決策樹算法161
5.2.1決策樹歸納161
5.2.2如何建立決策樹162
5.2.3表示屬性測試條件的方法165
5.2.4選擇最佳劃分的度量166
5.2.5決策樹歸納算法170
5.2.6樹剪枝171
5.2.7決策樹歸納的特點173
5.3貝葉斯分類算法175
5.3.1貝葉斯定理176
5.3.2樸素貝葉斯分類177
5.3.3貝葉斯信念網路179
5.4支持向量機算法180
5.4.1數據線性可分的情況181
5.4.2數據非線性可分的情況184
5.5粗糙集分類算法185
5.6分類器評估方法186
5.6.1評估分類器性能的度量187
5.6.2保持方法和隨機二次抽樣190
5.6.3交叉驗證190
5.6.4自助法191
5.6.5使用統計顯著性檢驗選擇模型191
5.7組合分類器技術193
5.7.1組合分類方法簡介193
5.7.2裝袋193
5.7.3提升和Adaboost194
5.7.4隨機森林195
5.7.5提高類不平衡數據的分類準確率196
5.8惰性學習法(k最近鄰分類)197
5.9案例分析198
5.9.1SVM案例分析198
5.9.2決策樹案例分析206
5.10小結213
5.11習題213
5.12參考文獻215
第6章數據聚類分析方法218
6.1基本概念和術語218
6.1.1什麼是聚類分析219
6.1.2對聚類的基本要求219
6.1.3不同的聚類方法220
6.2劃分方法222
6.2.1kmeans算法222
6.2.2k中心點算法226
6.3層次方法228
6.3.1凝聚的與分裂的層次聚類228
6.3.2算法方法的距離度量230
6.4基於密度的方法 233
6.4.1傳統的密度: 基於中心的方法234
6.4.2DBSCAN算法236
6.5機率模型的聚類方法237
6.5.1模糊聚類237
6.5.2基於機率模型的聚類239
6.5.3期望最大化算法241
6.6聚類評估243
6.6.1估計聚類趨勢243
6.6.2確定正確的簇個數245
6.6.3測定聚類質量246
6.7案例分析248
6.7.1使用kmeans算法進行西瓜品類分析248
6.7.2使用層次聚類算法進行股票分析252
6.8小結259
6.9習題259
6.10參考文獻260
第7章深度學習262
7.1引言262
7.2前饋神經網路(BP網路)263
7.3基本深度神經網路比較267
7.4深信網268
7.4.1玻爾茲曼機269
7.4.2受限玻爾茲曼機269
7.4.3深信網271
7.5深度玻爾茲曼機275
7.6棧式自動編碼器277
7.6.1自動編碼器277
7.6.2棧式自動編碼器278
7.7卷積神經網路280
7.7.1卷積281
7.7.2池化282
7.7.3CNN訓練過程283
7.7.4CNN網路構造的案例分析287
7.8深度學習開源框架288
7.8.1開源框架簡介288
7.8.2開源案例分析289
7.9深度學習套用技巧294
7.10小結295
7.11習題296
7.12參考文獻296
第8章Hadoop大數據分散式處理生態系統299
8.1Hadoop集群基礎299
8.1.1Hadoop安裝300
8.1.2Hadoop配置301
8.2HDFS基礎操作309
8.3MapReduce並行計算框架316
8.3.1MapReduce程式實例: WordCount317
8.3.2Hadoop Streaming320
8.4基於Storm的分散式實時計算321
8.4.1Storm簡介321
8.4.2Storm基本概念321
8.4.3Storm編程325
8.5基於Spark Streaming的分散式實時計算333
8.5.1Spark記憶體計算框架334
8.5.2Spark Streaming簡介335
8.5.3Spark Streaming 編程337
8.6小結341
8.7習題342
8.8參考文獻342
第9章Hadoop大數據分析套用344
9.1典型數據挖掘算法並行化案例344
9.1.1MR kmeans算法分析344
9.1.2Mahout聚類算法案例347
9.1.3Spark MLlib聚類算法案例352
9.2大數據分析套用案例354
9.2.1搜尋引擎日誌數據分析354
9.2.2計程車軌跡數據分析357
9.2.3新聞組數據分析359
9.3小結366
9.4習題366
9.5參考文獻366
第10章大數據挖掘及套用展望368
10.1大數據挖掘的新數據368
10.2大數據挖掘的新方法370
10.2.1深度學習371
10.2.2知識圖譜373
10.2.3遷移學習374
10.2.4強化學習376
10.2.5社會計算377
10.2.6特異群組挖掘377
10.3網際網路時代的大數據挖掘套用378
10.4大數據時代面臨的挑戰380
10.4.1用戶隱私和安全問題380
10.4.2數據分析算法的可解釋性問題382
10.4.3人工智慧的倫理問題383
10.5小結384
10.6參考文獻385

相關詞條

熱門詞條

聯絡我們