大數據分析與挖掘(人民郵電出版社出版的書籍)

本詞條是多義詞,共2個義項
更多義項 ▼ 收起列表 ▲

《大數據分析與挖掘》是人民郵電出版社2022年出版的書籍。

基本介紹

  • 中文名:大數據分析與挖掘
  • 作者:石勝飛
  • 出版社:人民郵電出版社
  • ISBN:9787115483058
  • 定價:39.84
內容簡介,圖書目錄,作者簡介,

內容簡介

《大數據分析與挖掘》主要內容包括:第 1章緒論、第 2章數據特徵分析與預處理、第3章關聯規則挖掘、第4章分類算法、第5章聚類算法、第6章分散式大數據流挖掘、第7章 綜合案例——基於華為技術與設備。本書可作為高等院校數據科學與大數據技術、計算機科學與技術等相關專業的本科生教材。

圖書目錄

第1章 緒論 1
1.1 大數據分析與挖掘簡介 1
1.2 大數據套用及挑戰 2
1.3 大數據分析與挖掘主要技術 3
1.4 大數據分析與挖掘工具 4
1.4.1 Sklearn 4
1.4.2 Spark ML 5
1.4.3 華為雲的機器學習服務 5
第2章 數據特徵分析與預處理 15
2.1 數據類型 15
2.1.1 數據集類型 15
2.1.2 數據屬性的類型 17
2.2 數據的描述性特徵 20
2.2.1 描述數據集中趨勢的度量 20
2.2.2 描述數據離中趨勢的度量 22
2.2.3 數據分布形態的度量 24
2.2.4 數據分布特徵的可視化 27
2.3 數據的相關分析 30
2.3.1 相關分析 31
2.3.2 卡方(χ2)檢驗 32
2.4 數據預處理 34
2.4.1 數據變換、離散化與編碼 35
2.4.2 數據抽樣技術 40
2.4.3 主成分分析 42
2.4.4 數據清洗 49
2.5 Spark數據預處理功能簡介 52
2.5.1 二值化 52
2.5.2 分箱器 52
2.5.3 哈達瑪積變換 53
2.5.4 最大絕對值標準化 53
2.5.5 最小—最大變換 54
2.5.6 正則化 54
2.5.7 多項式擴展 55
2.5.8 標準化 55
2.5.9 特徵向量合併 56
2.5.10 類別特徵索引 57
習題 57
第3章 關聯規則挖掘 59
3.1 基本概念 59
3.2 基於候選項產生—測試策略的頻繁模式挖掘算法 61
3.2.1 Apriori算法 61
3.2.2 基於劃分的算法 64
3.2.3 事務數據的存儲 65
3.3 不需要產生候選項集的頻繁模式挖掘算法 66
3.3.1 FP-Growth算法 66
3.3.2 Spark上FP-Growth算法實踐 71
3.4 結合相關性分析的關聯規則 72
3.5 多層關聯規則挖掘算法 74
3.6 序列模式挖掘 77
3.6.1 序列模式的定義 77
3.6.2 PrefixSpan算法 78
3.6.3 與其他序列模式挖掘算法的比較和分析 80
3.7 其他類型關聯規則簡介 81
3.7.1 量化關聯規則 82
3.7.2 時態關聯規則 82
3.7.3 局部化的關聯規則 82
3.7.4 最佳化的關聯規則 82
習題 83
第4章 分類與回歸算法 85
4.1 決策樹算法 85
4.1.1 決策樹簡介 85
4.1.2 決策樹的類型 86
4.1.3 決策樹的構造過程 86
4.1.4 資訊理論的有關概念 87
4.1.5 ID3算法 87
4.1.6 資訊理論在ID3算法中的套用 90
4.1.7 C4.5算法 91
4.1.8 CART算法 91
4.1.9 過擬合與決策樹剪枝 93
4.1.10 決策樹後剪枝策略 95
4.1.11 決策樹的生成與可視化 103
4.1.12 幾種屬性選擇度量的對比 106
4.2 貝葉斯分類器 106
4.2.1 貝葉斯決策理論 106
4.2.2 極大似然估計 107
4.2.3 樸素貝葉斯分類器 108
4.2.4 貝葉斯網路基礎 110
4.2.5 通過貝葉斯網路判斷條件獨立 111
4.2.6 貝葉斯網路推理實例 112
4.3 基於實例的分類算法 115
4.3.1 KNN分類器 115
4.3.2 局部加權回歸 121
4.3.3 基於案例的推理 123
4.4 組合分類算法 130
4.4.1 Adaboost算法 130
4.4.2 Bagging算法 135
4.4.3 隨機森林 140
4.5 分類器算法的評估 142
4.6 回歸分析 146
4.6.1 線性回歸 146
4.6.2 嶺回歸 149
4.6.3 多項式回歸 149
4.6.4 邏輯回歸 151
4.6.5 決策樹回歸 152
4.6.6 梯度提升決策樹 155
習題 160
第5章 聚類算法 165
5.1 聚類分析概述 165
5.2 聚類算法的分類 166
5.3 距離度量 166
5.3.1 冪距離 166
5.3.2 歐式距離 167
5.3.3 曼哈頓距離 167
5.3.4 切比雪夫距離 168
5.3.5 餘弦相似度 168
5.3.6 蘭氏距離 169
5.3.7 馬氏距離 169
5.3.8 斜交空間距離 170
5.3.9 傑卡德距離 170
5.3.10 漢明距離 171
5.4 基於劃分的聚類算法 172
5.4.1 K均值算法 172
5.4.2 二分K均值聚類算法 174
5.4.3 小批量K均值算法 175
5.4.4 K均值++算法 179
5.4.5 K中心點算法 180
5.4.6 數據流K均值算法 181
5.5 基於密度的聚類算法 182
5.5.1 DBSCAN算法 182
5.5.2 OPTICS算法 185
5.6 基於模型的聚類算法:高斯混合模型算法 189
5.6.1 算法原理 189
5.6.2 GMM算法的參數估計 190
5.6.3 GMM算法實踐 191
5.7 層次聚類 193
5.7.1 凝聚的層次聚類算法 193
5.7.2 聚類之間距離的度量方法 193
5.7.3 層次聚類算法的性質 204
5.7.4 BIRCH算法 207
5.8 基於格線的聚類算法 211
5.8.1 STING算法 211
5.8.2 CLIQUE算法 213
5.9 Mean Shift聚類算法 218
5.9.1 基本概念 218
5.9.2 Mean Shift算法聚類過程 219
5.9.3 Mean Shift聚類算法實踐 222
5.9.4 改進的Mean Shift算法 223
5.10 聚類算法評價指標 224
5.10.1 調整蘭德指數 224
5.10.2 互信息評分 225
5.10.3 同質性、完整性以及調和平均 226
5.10.4 Fowlkes-Mallows評分 228
5.10.5 輪廓係數 229
5.10.6 Calinski-Harabz 指數 229
習題 230
第6章 數據挖掘綜合套用:異常檢測 232
6.1 預備知識 232
6.1.1 相關統計學概念 232
6.1.2 異常檢測評價指標 234
6.1.3 異常檢測問題的特點 234
6.1.4 異常檢測算法分類 234
6.2 基於隔離森林的異常檢測算法 235
6.2.1 隔離與隔離樹iTree 236
6.2.2 隔離森林的特點 238
6.2.3 隔離森林算法 239
6.2.4 套用實例 240
6.3 局部異常因子算法 242
6.3.1 基本定義 242
6.3.2 異常檢測 243
6.3.3 套用實例 244
6.4 基於One-Class SVM的異常檢測算法 245
6.4.1 基本原理 245
6.4.2 套用實例 246
6.5 基於主成分分析的異常檢測算法 247
6.6 基於集成學習的異常檢測算法 249
6.6.1 基本原理 249
6.6.2 套用實例 250
6.7 其他有監督學習類型的檢測算法 253
6.7.1 罕見類別檢測 254
6.7.2 基於有監督學習的異常檢測實例 256
6.7.3 異常檢測套用實例——時空異常檢測 257
6.7.4 Spark異常值檢測實例 259
6.8 習題 261
附錄 《大數據分析與挖掘》配套實驗課程方案簡介 263
參考文獻 264

作者簡介

石勝飛,哈爾濱工業大學副教授,主要研究領域數據挖掘、大數據分析。中國計算機學會資料庫專家會委員。中國計算機學會資料庫專家會委員。

相關詞條

熱門詞條

聯絡我們