大數據教程——數據分析原理和方法

大數據教程——數據分析原理和方法

《大數據教程——數據分析原理和方法》是一本2020年出版的圖書,由科學出版社出版

基本介紹

  • 中文名:大數據教程——數據分析原理和方法
  • 作者:林正炎,張朋,梁克維 等
  • 出版時間:2020年12月1日
  • 出版社:科學出版社
  • 頁數:377 頁
  • ISBN:9787030632982
  • 開本:16 開
  • 裝幀:平裝
內容簡介,圖書目錄,

內容簡介

《大數據教程:數據分析原理和方法》試圖較全面地介紹大數據技術的基本原理和方法,包括以統計模型為主的各類數據模型以及它們的計算方法,同時還將介紹這些方法在一些領域(如人工智慧)中的套用。

圖書目錄

前言
第1章 引言 1
1.1 什麼是大數據 1
1.1.1 大數據概論 1
1.1.2 大數據的特點 1
1.1.3 大數據帶來的利益 2
1.1.4 大數據的類型 3
1.2 數據分析過程 4
1.3 專業領域知識 4
1.3.1 統計學 5
1.3.2 數據挖掘 5
1.3.3 機器學習 5
1.3.4 人工智慧 6
1.3.5 數學 6
1.4 數據科學家做什麼? 6
1.4.1 學術界 6
1.4.2 工業界 6
第2章 大數據的預處理、存儲和計算 8
2.1 數據的預處理 8
2.1.1 數據源 9
2.1.2 數據格式 9
2.1.3 數據形式 10
2.2 數據清洗 11
2.2.1 數據清洗的系統框架 12
2.2.2 待清洗數據的主要類型 12
2.2.3 數據檢測算法和清洗算法 13
2.2.4 數據清洗評估 16
2.3 雲存儲和雲計算* 17
習題2 18
第3章 數據可視化 20
3.1 基本原理 20
3.2 實現過程 20
3.3 可視化工具 21
3.4 數據可視化方法 21
第4章 回歸與分類(一) 25
4.1 線性回歸 25
4.1.1 模型介紹 26
4.1.2 參數估計 28
4.1.3 假設檢驗 32
4.1.4 模型評價與診斷 35
4.1.5 預測 39
4.2 線性回歸的推廣* 40
4.2.1 多項式回歸 41
4.2.2 樣條回歸 43
4.2.3 局部回歸 47
4.2.4 廣義加性模型 52
4.2.5 回歸性能的度量 54
4.3 時間序列分析 57
4.3.1 AR(p)模型 57
4.3.2 MA(q)模型 60
4.3.3 ARMA(p,q)模型 63
4.4 邏輯斯諦回歸 68
4.5 判別分類 72
4.5.1 線性判別分析 72
4.5.2 二次判別分析 75
4.6 k*近鄰分類 76
習題4 78
第5章 回歸與分類(二) 81
5.1 決策樹 81
5.1.1 回歸樹 82
5.1.2 分類樹 88
5.1.3 決策樹的優缺點 91
5.2 Bagging分類 91
5.3 隨機森林分類 96
5.4 AdaBoost分類 98
5.5 支持向量機分類 103
5.5.1 *大間隔分類器 103
5.5.2 支持向量分類器 109
5.5.3 支持向量機 113
5.5.4 多分類的支持向量機 118
習題5 118
第6章 聚類及相關數據分析 120
6.1 聚類分析 120
6.1.1 距離的定義 120
6.1.2 系統聚類法 127
6.1.3 K均值聚類 130
6.2 文本分析 134
6.2.1 基本概念 134
6.2.2 處理過程和任務 136
6.2.3 特徵處理 138
6.2.4 文本表示模型 139
6.2.5 文本分類與文本聚類 143
6.2.6 套用實例 144
6.2.7 分散式文本挖掘 147
6.3 網路圖形描述和模型* 148
6.3.1 圖的基本概念 148
6.3.2 複雜網路的統計特徵 149
6.3.3 小世界現象 151
6.3.4 模型介紹 154
6.4 網路數據分析和圖形模型 157
6.4.1 網路數據概述 157
6.4.2 網路數據收集 158
6.4.3 網路數據分析 160
6.5 關聯規則和推薦系統 164
6.5.1 關聯規則 164
6.5.2 推薦系統 166
6.5.3 基於內容的推薦系統設計過程 169
習題6 170
第7章 高維統計中的變數選擇 173
7.1 經典降維方法 173
7.1.1 主成分分析 173
7.1.2 因子分析 178
7.2 Lasso模型及其變形 185
7.2.1 Lasso基本方法 185
7.2.2 Lasso方法的拓展 188
7.2.3 其他降維方法 196
7.3 流形降維方法* 204
7.3.1 核主成分分析 205
7.3.2 局部線性嵌入 206
7.3.3 多維縮放 208
7.3.4 Isomap 209
7.4 非負矩陣分解* 210
7.4.1 基本原理 210
7.4.2 NMF的求解方法 211
7.4.3 套用 212
7.5 自編碼器 212
7.5.1 基本原理 213
7.5.2 可視化自編碼器 215
7.6 t-SNE 216
7.6.1 算法 216
7.6.2 套用 217
7.7 正則化方法 218
7.7.1 多項式擬合 218
7.7.2 過擬合和欠擬合 221
7.7.3 L2正則 222
7.7.4 L1正則 224
7.7.5 縮減參數的選取 225
習題7 225
第8章 *大期望算法(EM算法) 227
8.1 預備知識 228
8.2 算法描述 229
8.3 算法導出* 230
8.4 EM算法的套用 232
8.4.1 簡單實例——拋投硬幣實驗 232
8.4.2 男女生身高實例——混合高斯模型 235
習題8 240
第9章 貝葉斯方法 242
9.1 引論 242
9.2 貝葉斯統計推斷 243
9.2.1 一個例子 243
9.2.2 確定先驗分布 244
9.2.3 點估計 245
9.2.4 區間估計 245
9.2.5 假設檢驗 246
9.3 貝葉斯方法在變數選擇中的套用 246
9.3.1 貝葉斯模型選擇 246
9.3.2 採樣 248
9.3.3 貝葉斯變數選擇 249
習題9 250
第10章 隱馬爾可夫模型 252
10.1 隱馬爾可夫模型的基本概念 252
10.1.1 馬爾可夫鏈 252
10.1.2 隱馬爾可夫模型 253
10.1.3 觀測序列的生成過程 257
10.1.4 隱馬爾可夫模型的三個基本問題 257
10.2 機率計算算法 258
10.2.1 前向算法 258
10.2.2 後向算法 260
10.2.3 一些機率與期望值的計算 261
10.3 學習算法 262
10.3.1 監督學習方法 262
10.3.2 Baum-Welch算法 263
10.3.3 Baum-Welch模型參數估計 265
10.4 預測算法 266
10.4.1 近似算法 266
10.4.2 維特比算法 267
習題10 271
第11章 神經網路與深度學習 272
11.1 引言 272
11.2 神經網路 272
11.2.1 簡介 272
11.2.2 神經元 274
11.2.3 感知器 275
11.2.4 神經網路模型 276
11.2.5 激活函式 278
11.2.6 代價函式 280
11.2.7 梯度下降法 281
11.2.8 反向傳播算法 283
11.2.9 梯度檢驗 285
11.3 深度神經網路 285
11.4 卷積神經網路 286
11.4.1 卷積 287
11.4.2 卷積層 288
11.4.3 池化層 291
11.4.4 卷積神經網路的網路架構 292
11.4.5 權值的訓練 293
11.4.6 LeNet-5卷積神經網路 295
11.5 循環神經網路 297
11.5.1 簡單循環神經網路 297
11.5.2 基於時間的反向傳播算法 299
11.5.3 梯度消失和梯度爆炸 302
11.5.4 長短時記憶網路* 302
11.5.5 門限循環單元* 304
11.6 強化學習* 305
11.6.1 什麼是強化學習? 305
11.6.2 強化學習的不同的環境 307
11.6.3 強化學習的幾個有代表性的算法及理論基礎 307
11.6.4 強化學習的相關套用 308
11.6.5 強化學習的平台 308
11.6.6 強化學習的展望 309
11.7 深度學習在人工智慧中的套用 309
11.7.1 深度學習在無人駕駛汽車領域的套用 309
11.7.2 深度學習在自然語言處理領域的套用 311
11.7.3 深度學習在醫療健康領域的套用 314
習題11 315
第12章 案例分析 316
12.1 金融數據分析案例 316
12.2 高維稀疏單細胞RNA測序數據的聚類研究 321
12.2.1 背景介紹 321
12.2.2 研究目標和內容 322
12.2.3 數據標準化 323
12.2.4 基於隱變數標準化兩階段單細胞無監督類 325
12.3 手寫數字識別 327
12.3.1 MNIST數據的說明和導入 327
12.3.2 MNIST手寫數字神經網路識別 330
參考文獻 337
附錄A R語言簡介 344
A.1 特點 344
A.2 安裝和運行 344
A.3 幫助命令和幫助工具 345
A.4 RStudio 346
A.5 R編程要點 347
附錄B Python語言介紹 356
B.1 基礎介紹 356
B.2 非基礎部分 367
B.3 機器學習常用module介紹 375
索引 379
彩圖

相關詞條

熱門詞條

聯絡我們