大數據分析原理與實踐

內容簡介

大數據分析是大數據產生價值的關鍵，也是由大數據到智慧型的核心步驟，因而成為當前快速發展的“數據科學”和“大數據”相關專業的核心課程。這本書從理論到實踐，從基礎到前沿，全面介紹了大數據分析的理論和技術，涵蓋了模型、算法、系統以及套用等多個方面，是一部很好的大數據分析教材。

作者簡介

王宏志　哈爾濱工業大學計算機科學與技術學院教授、博士生導師。研究方向為大數據管理與分析、數據質量、圖數據管理。發表學術論文170餘篇，其中7篇論文發表於頂級國際會議上。出版學術專著兩本，並出版國內首部《大數據算法》教材。獲得黑龍江省自然科學一等獎和教育部高等學校科技進步一等獎各一項。先後主持或參與國家973項目、863項目、自然科學基金重點項目等。主要社會兼職有ACM SIGMOD中國秘書長，中國計算機學會學術工作委員會委員、CCF YOCSEF哈爾濱分論壇主席、中國資料庫專業委員會常務委員等。

序
前言
教學建議
第1章　緒論 1
1.1　什麼是大數據 1
1.2　哪裡有大數據 3
1.3　什麼是大數據分析 4
1.4　大數據分析的過程、技術與難點 5
1.5　全書概覽 8
小結 10
習題 10
第2章　大數據分析模型 11
2.1　大數據分析模型建立方法 11
2.2　基本統計量 13
2.2.1　全表統計量 14
2.2.2　皮爾森相關係數 15
2.3　推斷統計 16
2.3.1　參數估計 16
2.3.2　假設檢驗 20
2.3.3　假設檢驗的阿里雲實現 23
小結 28
習題 28
第3章　關聯分析模型 30
3.1　回歸分析 31
3.1.1　回歸分析概述 31
3.1.2　回歸模型的拓展 35
3.1.3　回歸的阿里雲實現 43
3.2　關聯規則分析 52
3.3　相關分析 54
小結 57
習題 58
第4章　分類分析模型 60
4.1　分類分析的定義 60
4.2　判別分析的原理和方法 61
4.2.1　距離判別法 61
4.2.2　Fisher判別法 64
4.2.3　貝葉斯判別法 67
4.3　基於機器學習分類的模型 71
4.3.1　支持向量機 72
4.3.2　邏輯回歸 74
4.3.3　決策樹與回歸樹 75
4.3.4　k近鄰 78
4.3.5　隨機森林 78
4.3.6　樸素貝葉斯 81
4.4　分類分析實例 82
4.4.1　二分類實例 82
4.4.2　多分類實例 94
小結 101
習題 102
第5章　聚類分析模型 105
5.1　聚類分析的定義 105
5.1.1　基於距離的親疏關係度量 105
5.1.2　基於相似係數的相似性度量 108
5.1.3　個體與類以及類間的親疏關係度量 110
5.1.4　變數的選擇與處理 111
5.2　聚類分析的分類 111
5.3　聚類有效性的評價 112
5.4　聚類分析方法概述 112
5.5　聚類分析的套用 113
5.6　聚類分析的阿里雲實現 114
小結 119
習題 119
第6章　結構分析模型 122
6.1　最短路徑 122
6.2　連結排名 123
6.3　結構計數 125
6.4　結構聚類 126
6.5　社團發現 128
6.5.1　社團的定義 128
6.5.2　社團的分類 128
6.5.3　社團的用途 128
6.5.4　社團的數學定義 128
6.5.5　基於阿里雲的社團發現 130
小結 132
習題 133
第7章　文本分析模型 135
7.1　文本分析模型概述 135
7.2　文本分析方法概述 136
7.2.1　SplitWord 136
7.2.2　詞頻統計 137
7.2.3　TF-IDF 138
7.2.4　PLDA 140
7.2.5　Word2Vec 147
小結 148
習題 149
第8章　大數據分析的數據預處理 150
8.1　數據抽樣和過濾 150
8.1.1　數據抽樣 150
8.1.2　數據過濾 154
8.1.3　基於阿里雲的抽樣和過濾實現 154
8.2　數據標準化與歸一化 157
8.3　數據清洗 159
8.3.1　數據質量概述 159
8.3.2　缺失值填充 160
8.3.3　實體識別與真值發現 162
8.3.4　錯誤發現與修復 169
小結 171
習題 171
第9章　降維 173
9.1　特徵工程 173
9.1.1　特徵工程概述 173
9.1.2　特徵變換 175
9.1.3　特徵選擇 178
9.1.4　特徵重要性評估 183
9.2　主成分分析 191
9.2.1　什麼是主成分分析 191
9.2.2　主成分分析的計算過程 192
9.2.3　基於阿里雲的主成分分析 194
9.2.4　主成分的表現度量 195
9.3　因子分析 196
9.3.1　因子分析概述 196
9.3.2　因子分析的主要分析指標 196
9.3.3　因子分析的計算方法 197
9.4　壓縮感知 203
9.4.1　什麼是壓縮感知 203
9.4.2　壓縮感知的具體模型 204
9.5　面向神經網路的降維 205
9.5.1　面向神經網路的降維方法概述 205
9.5.2　如何利用神經網路降維 206
9.6　基於特徵散列的維度縮減 207
9.6.1　特徵散列方法概述 207
9.6.2　特徵散列算法 207
9.7　基於Lasso算法的降維 208
9.7.1　Lasso方法簡介 208
9.7.2　Lasso方法 209
9.7.3　Lasso算法的適用情景 211
小結 211
習題 212
第10章　面向大數據的數據倉庫系統 214
10.1　數據倉庫概述 214
10.1.1　數據倉庫的基本概念 214
10.1.2　數據倉庫的內涵 215
10.1.3　數據倉庫的基本組成 215
10.1.4　數據倉庫系統的體系結構 216
10.1.5　數據倉庫的建立 217
10.2　分散式數據倉庫系統 221
10.2.1　基於Hadoop的數據倉庫系統 221
10.2.2　Shark：基於Spark的數據倉庫系統 227
10.2.3　Mesa 228
10.3　記憶體數據倉庫系統 231
10.3.1　SAP HANA 231
10.3.2　HyPer 234
10.4　阿里雲數據倉庫簡介 236
小結 238
習題 239
第11章　大數據分析算法 240
11.1　大數據分析算法概述 240
11.2　回歸算法 242
11.3　關聯規則挖掘算法 248
11.4　分類算法 255
11.4.1　二分類算法 256
11.4.2　多分類算法 273
11.5　聚類算法 283
11.5.1　k-means算法 283
11.5.2　CLARANS算法 291
小結 293
習題 293
第12章　大數據計算平台 295
12.1　Spark 295
12.1.1　Spark簡介 295
12.1.2　基於Spark的大數據分析實例 296
12.2　Hyracks 299
12.2.1　Hyracks簡介 299
12.2.2　基於Hyracks的大數據分析實例 299
12.3　DPark 305
12.3.1　DPark簡介 305
12.3.2　基於DPark的大數據分析實例 306
12.4　HaLoop 308
12.4.1　HaLoop簡介 308
12.4.2　基於HaLoop的大數據分析實例 308
12.5　MaxCompute 309
12.5.1　MaxCompute簡介 309
12.5.2　MaxCompute實戰案例介紹 310
12.5.3　基於MaxCompute的大數據分析實例 316
12.5.4　MaxCompute的現狀及前景 320
小結 321
習題 321
第13章　流式計算平台 322
13.1　流式計算概述 322
13.1.1　流式計算的定義 322
13.1.2　流式計算的套用 322
13.1.3　流式計算平台的發展 324
13.2　Storm 324
13.2.1　Storm簡介 324
13.2.2　Storm的結構 325
13.2.3　基於Storm的大數據分析實例 326
13.3　分散式流處理系統Samza 331
13.3.1　Samza簡介 331
13.3.2　Samza的原理 332
13.3.3　基於Samza的大數據分析實例 334
13.4　Cloud Dataflow 339
13.4.1　Cloud Dataflow簡介 339
13.4.2　Cloud Dataflow開發模型 340
13.4.3　Cloud Dataflow的套用實例 340
13.5　阿里雲StreamCompute 341
13.5.1　阿里雲StreamCompute的原理 341
13.5.2　基於StreamCompute的實時數據統計 342
13.5.3　訂單統計實例 347
小結 348
習題 349
第14章　大圖計算平台 350
14.1　大圖計算框架概述 350
14.2　GraphLab 350
14.2.1　GraphLab的計算模型 350
14.2.2　基於GraphLab的大圖分析實例 351
14.3　Giraph 353
14.3.1　Giraph簡介 353
14.3.2　Giraph的原理 353
14.3.3　Giraph的套用 354
14.3.4　基於Giraph的大圖分析實例 354
14.4　Neo4j 358
14.4.1　Neo4j簡介 358
14.4.2　基於Noe4j的大圖分析實例 359
14.5　Apache Hama 360
14.5.1　Apache Hama簡介 360
14.5.2　Apache Hama的結構 361
14.5.3　Apache Hama的工作原理 362
14.6　MaxCompute Graph 363
14.6.1　MaxCompute Graph的原理 363
14.6.2　MaxCompute Graph的使用與配置方法 364
14.5.3　基於MaxCompute Graph的大圖分析實例 371
小結 376
習題 377
第15章　社交網路 378
15.1　為社交網路建模 378
15.1.1　社交網路概述 378
15.1.2　社交圖 378
15.2　社交網路的結構 379
15.2.1　社交網路的統計學構成 379
15.2.2　社交網路的群體形成 381
15.3　基於社交網路語義分析的利益衝突發現 382
15.4　社交網路中的社區發現 384
15.4.1　動態社交網路中的社區識別框架 384
15.4.2　基於經驗比對算法的網路社區檢測 387
15.5　社交網路中的關聯分析 388
15.5.1　社交網路中的關係強度模型 388
15.5.2　社交網路中“正向連結”與“負向連結”的預測 391
15.6　社交網路中的影響力預測 393
15.7　基於阿里雲的社團發現實例 396
小結 403
習題 403
第16章　推薦系統 405
16.1　推薦系統概述 405
16.2　協同過濾 408
16.2.1　協同過濾簡介 408
16.2.2　面向物品的協同過濾算法 408
16.2.3　改進的最近鄰法 410
16.2.4　集成協同過濾方法 412
16.3　基於用戶評價的推薦 413
16.4　基於人的推薦 415
16.4.1　基於用戶偏好學習的線上推薦 415
16.4.2　混合推薦系統 418
16.5　基於標記的推薦 422
16.6　社交網路中的推薦 423
16.6.1　基於信號的社交網路推薦 423
16.6.2　基於線上主題的社交網路推薦 425
16.7　基於阿里雲的個性推薦系統搭建 427
小結 439
習題 439
參考文獻 441
附錄

大數據分析原理與實踐

基本介紹

內容簡介

作者簡介

目錄

相關詞條

熱門詞條