大數據教程——數據分析原理和方法

大數據教程——數據分析原理和方法

《大數據教程——數據分析原理和方法》是一本2020年出版的圖書，由科學出版社出版

基本介紹

中文名：大數據教程——數據分析原理和方法
作者：林正炎,張朋,梁克維等
出版時間：2020年12月1日
出版社：科學出版社
頁數：377 頁
ISBN：9787030632982
開本：16 開
裝幀：平裝

內容簡介,圖書目錄,

內容簡介

《大數據教程：數據分析原理和方法》試圖較全面地介紹大數據技術的基本原理和方法，包括以統計模型為主的各類數據模型以及它們的計算方法，同時還將介紹這些方法在一些領域(如人工智慧)中的套用。

圖書目錄

前言

第1章引言 1

1.1 什麼是大數據 1

1.1.1 大數據概論 1

1.1.2 大數據的特點 1

1.1.3 大數據帶來的利益 2

1.1.4 大數據的類型 3

1.2 數據分析過程 4

1.3 專業領域知識 4

1.3.1 統計學 5

1.3.2 數據挖掘 5

1.3.3 機器學習 5

1.3.4 人工智慧 6

1.3.5 數學 6

1.4 數據科學家做什麼? 6

1.4.1 學術界 6

1.4.2 工業界 6

第2章大數據的預處理、存儲和計算 8

2.1 數據的預處理 8

2.1.1 數據源 9

2.1.2 數據格式 9

2.1.3 數據形式 10

2.2 數據清洗 11

2.2.1 數據清洗的系統框架 12

2.2.2 待清洗數據的主要類型 12

2.2.3 數據檢測算法和清洗算法 13

2.2.4 數據清洗評估 16

2.3 雲存儲和雲計算* 17

習題2 18

第3章數據可視化 20

3.1 基本原理 20

3.2 實現過程 20

3.3 可視化工具 21

3.4 數據可視化方法 21

第4章回歸與分類(一) 25

4.1 線性回歸 25

4.1.1 模型介紹 26

4.1.2 參數估計 28

4.1.3 假設檢驗 32

4.1.4 模型評價與診斷 35

4.1.5 預測 39

4.2 線性回歸的推廣* 40

4.2.1 多項式回歸 41

4.2.2 樣條回歸 43

4.2.3 局部回歸 47

4.2.4 廣義加性模型 52

4.2.5 回歸性能的度量 54

4.3 時間序列分析 57

4.3.1 AR(p)模型 57

4.3.2 MA(q)模型 60

4.3.3 ARMA(p，q)模型 63

4.4 邏輯斯諦回歸 68

4.5 判別分類 72

4.5.1 線性判別分析 72

4.5.2 二次判別分析 75

4.6 k*近鄰分類 76

習題4 78

第5章回歸與分類(二) 81

5.1 決策樹 81

5.1.1 回歸樹 82

5.1.2 分類樹 88

5.1.3 決策樹的優缺點 91

5.2 Bagging分類 91

5.3 隨機森林分類 96

5.4 AdaBoost分類 98

5.5 支持向量機分類 103

5.5.1 *大間隔分類器 103

5.5.2 支持向量分類器 109

5.5.3 支持向量機 113

5.5.4 多分類的支持向量機 118

習題5 118

第6章聚類及相關數據分析 120

6.1 聚類分析 120

6.1.1 距離的定義 120

6.1.2 系統聚類法 127

6.1.3 K均值聚類 130

6.2 文本分析 134

6.2.1 基本概念 134

6.2.2 處理過程和任務 136

6.2.3 特徵處理 138

6.2.4 文本表示模型 139

6.2.5 文本分類與文本聚類 143

6.2.6 套用實例 144

6.2.7 分散式文本挖掘 147

6.3 網路圖形描述和模型* 148

6.3.1 圖的基本概念 148

6.3.2 複雜網路的統計特徵 149

6.3.3 小世界現象 151

6.3.4 模型介紹 154

6.4 網路數據分析和圖形模型 157

6.4.1 網路數據概述 157

6.4.2 網路數據收集 158

6.4.3 網路數據分析 160

6.5 關聯規則和推薦系統 164

6.5.1 關聯規則 164

6.5.2 推薦系統 166

6.5.3 基於內容的推薦系統設計過程 169

習題6 170

第7章高維統計中的變數選擇 173

7.1 經典降維方法 173

7.1.1 主成分分析 173

7.1.2 因子分析 178

7.2 Lasso模型及其變形 185

7.2.1 Lasso基本方法 185

7.2.2 Lasso方法的拓展 188

7.2.3 其他降維方法 196

7.3 流形降維方法* 204

7.3.1 核主成分分析 205

7.3.2 局部線性嵌入 206

7.3.3 多維縮放 208

7.3.4 Isomap 209

7.4 非負矩陣分解* 210

7.4.1 基本原理 210

7.4.2 NMF的求解方法 211

7.4.3 套用 212

7.5 自編碼器 212

7.5.1 基本原理 213

7.5.2 可視化自編碼器 215

7.6 t-SNE 216

7.6.1 算法 216

7.6.2 套用 217

7.7 正則化方法 218

7.7.1 多項式擬合 218

7.7.2 過擬合和欠擬合 221

7.7.3 L2正則 222

7.7.4 L1正則 224

7.7.5 縮減參數的選取 225

習題7 225

第8章 *大期望算法(EM算法) 227

8.1 預備知識 228

8.2 算法描述 229

8.3 算法導出* 230

8.4 EM算法的套用 232

8.4.1 簡單實例——拋投硬幣實驗 232

8.4.2 男女生身高實例——混合高斯模型 235

習題8 240

第9章貝葉斯方法 242

9.1 引論 242

9.2 貝葉斯統計推斷 243

9.2.1 一個例子 243

9.2.2 確定先驗分布 244

9.2.3 點估計 245

9.2.4 區間估計 245

9.2.5 假設檢驗 246

9.3 貝葉斯方法在變數選擇中的套用 246

9.3.1 貝葉斯模型選擇 246

9.3.2 採樣 248

9.3.3 貝葉斯變數選擇 249

習題9 250

第10章隱馬爾可夫模型 252

10.1 隱馬爾可夫模型的基本概念 252

10.1.1 馬爾可夫鏈 252

10.1.2 隱馬爾可夫模型 253

10.1.3 觀測序列的生成過程 257

10.1.4 隱馬爾可夫模型的三個基本問題 257

10.2 機率計算算法 258

10.2.1 前向算法 258

10.2.2 後向算法 260

10.2.3 一些機率與期望值的計算 261

10.3 學習算法 262

10.3.1 監督學習方法 262

10.3.2 Baum-Welch算法 263

10.3.3 Baum-Welch模型參數估計 265

10.4 預測算法 266

10.4.1 近似算法 266

10.4.2 維特比算法 267

習題10 271

第11章神經網路與深度學習 272

11.1 引言 272

11.2 神經網路 272

11.2.1 簡介 272

11.2.2 神經元 274

11.2.3 感知器 275

11.2.4 神經網路模型 276

11.2.5 激活函式 278

11.2.6 代價函式 280

11.2.7 梯度下降法 281

11.2.8 反向傳播算法 283

11.2.9 梯度檢驗 285

11.3 深度神經網路 285

11.4 卷積神經網路 286

11.4.1 卷積 287

11.4.2 卷積層 288

11.4.3 池化層 291

11.4.4 卷積神經網路的網路架構 292

11.4.5 權值的訓練 293

11.4.6 LeNet-5卷積神經網路 295

11.5 循環神經網路 297

11.5.1 簡單循環神經網路 297

11.5.2 基於時間的反向傳播算法 299

11.5.3 梯度消失和梯度爆炸 302

11.5.4 長短時記憶網路* 302

11.5.5 門限循環單元* 304

11.6 強化學習* 305

11.6.1 什麼是強化學習？ 305

11.6.2 強化學習的不同的環境 307

11.6.3 強化學習的幾個有代表性的算法及理論基礎 307

11.6.4 強化學習的相關套用 308

11.6.5 強化學習的平台 308

11.6.6 強化學習的展望 309

11.7 深度學習在人工智慧中的套用 309

11.7.1 深度學習在無人駕駛汽車領域的套用 309

11.7.2 深度學習在自然語言處理領域的套用 311

11.7.3 深度學習在醫療健康領域的套用 314

習題11 315

第12章案例分析 316

12.1 金融數據分析案例 316

12.2 高維稀疏單細胞RNA測序數據的聚類研究 321

12.2.1 背景介紹 321

12.2.2 研究目標和內容 322

12.2.3 數據標準化 323

12.2.4 基於隱變數標準化兩階段單細胞無監督類 325

12.3 手寫數字識別 327

12.3.1 MNIST數據的說明和導入 327

12.3.2 MNIST手寫數字神經網路識別 330

參考文獻 337

附錄A R語言簡介 344

A.1 特點 344

A.2 安裝和運行 344

A.3 幫助命令和幫助工具 345

A.4 RStudio 346

A.5 R編程要點 347

附錄B Python語言介紹 356

B.1 基礎介紹 356

B.2 非基礎部分 367

B.3 機器學習常用module介紹 375

索引 379

彩圖

相關詞條

熱門詞條

聯絡我們