Alink權威指南:基於Flink的機器學習實例入門(Python)

Alink權威指南:基於Flink的機器學習實例入門(Python)

《Alink指南:基於Flink的機器學習實例入門(Python)》是2022年4月電子工業出版社出版圖書,作者是楊旭。

基本介紹

  • 中文名:Alink指南:基於Flink的機器學習實例入門(Python)
  • 作者:楊旭
  • 出版社:電子工業出版社
  • 出版時間:2022年4月
  • 頁數:476 頁
  • 定價:149 元
  • 開本:16 開
  • ISBN: 9787121431289
內容簡介,圖書目錄,

內容簡介

根據機器學習的知識點由淺入深來逐層講述的,這樣可降低閱讀的門檻,讓讀者能對所學的內容有一個清晰的印象,並可熟練地運用到實踐中

圖書目錄

第1章 Alink快速上手 1
1.1 Alink是什麼 1
1.2 免費下載、安裝 2
1.3 Alink的功能 2
1.3.1 豐富的算法庫 2
1.3.2 多樣的使用體驗 3
1.3.3 與SparkML的對比 .4
1.4 關於數據和代碼 5
1.5 簡單示例 6
1.5.1 數據的讀/寫與顯示 .6
1.5.2 批式訓練和批式預測 7
1.5.3 流式處理和流式預測 10
1.5.4 定義Pipeline,簡化操作 11
1.5.5 嵌入預測服務系統 13
第2章 系統概況與核心概念 15
2.1 基本概念 15
2.2 批式任務與流式任務 16
2.3 Alink=A+link .19
2.3.1 BatchOperator和StreamOperator .20
2.3.2 link方式是批式算法/流式算法的通用使用方式 21
2.3.3 link的簡化 .24
2.3.4 組件的主輸出與側輸出 25
2.4 Pipeline與PipelineModel .25
2.4.1 概念和定義 25
2.4.2 深入介紹 27
2.5 觸發Alink任務的執行 .29
2.6 模型信息顯示 31
2.7 檔案系統與資料庫 35
2.8 Schema String 37
第3章 檔案系統與數據檔案 39
3.1 檔案系統簡介 39
3.1.1 本地檔案系統 40
3.1.2 Hadoop檔案系統 42
3.1.3 阿里雲OSS檔案系統 44
3.2 數據檔案的讀入與導出 46
3.2.1 CSV格式 47
3.2.2 TSV格式、LibSVM格式和Text格式 54
3.2.3 AK格式 58
第4章 資料庫與數據表 61
4.1 簡介 61
4.1.1 Catalog的基本操作 .61
4.1.2 Source組件和Sink組件 .62
4.2 Hive示例 .63
4.3 Derby示例 .66
4.4 MySQL示例 68
第5章 支持Flink SQL . 70
5.1 基本操作 70
5.1.1 註冊 70
5.1.2 運行 71
5.1.3 內置函式 74
5.1.4 用戶定義函式 74
5.2 簡化操作 75
5.2.1 單表操作 76
5.2.2 兩表的連線(JOIN)操作 80
5.2.3 兩表的集合操作 82
第6章 用戶定義函式(UDF/UDTF) 87
6.1 用戶定義標量函式(UDF) 87
6.1.1 示例數據及問題 88
6.1.2 UDF的定義 .88
6.1.3 使用UDF處理批式數據 89
6.1.4 使用UDF處理流式數據 90
6.2 用戶定義表值函式(UDTF) .92
6.2.1 示例數據及問題 92
6.2.2 UDTF的定義 .92
6.2.3 使用UDTF處理批式數據 93
6.2.4 使用UDTF處理流式數據 95
第7章 基本數據處理 . 98
7.1 採樣 98
7.1.1 取“前”N個數據 .99
7.1.2 隨機採樣 99
7.1.3 加權採樣 102
7.1.4 分層採樣 103
7.2 數據劃分 104
7.3 數值尺度變換 106
7.3.1 標準化 106
7.3.2 MinMaxScale 108
7.3.3 MaxAbsScale 109
7.4 向量的尺度變換 111
7.4.1 StandardScale、MinMaxScale、MaxAbsScale. 111
7.4.2 正則化 113
7.5 缺失值填充 114
7.6 Python數組、DataFrame形式的數據和Alink批式數據之間的相互轉換 116
7.6.1 Python數組與DataFrame形式的數據之間的相互轉換 116
7.6.2 將Alink批式數據轉換為DataFrame形式的數據 117
7.6.3 將DataFrame形式的數據轉換為Alink批式數據 118
第8章 線性二分類模型 119
8.1 線性模型的基礎知識 119
8.1.1 損失函式 119
8.1.2 經驗風險函式與結構風險函式 121
8.1.3 線性模型與損失函式 122
8.1.4 邏輯回歸與線性支持向量機(Linear SVM) 123
8.2 二分類評估方法 125
8.2.1 基本指標 126
8.2.2 綜合指標 128
8.2.3 評估曲線 131
8.3 數據探索 136
8.3.1 基本統計 138
8.3.2 相關性 140
8.4 訓練集和測試集 144
8.5 邏輯回歸模型 145
8.6 線性支持向量機模型 147
8.7 模型評估 149
8.8 特徵的多項式擴展 154
8.9 因子分解機 157
第9章 樸素貝葉斯模型與決策樹模型 160
9.1 樸素貝葉斯模型 160
9.2 決策樹模型 162
9.2.1 決策樹的分裂指標定義 165
9.2.2 常用的決策樹算法 167
9.2.3 指標計算示例 170
9.2.4 分類樹與回歸樹 173
9.2.5 經典的決策樹示例 173
9.3 數據探索 176
9.4 使用樸素貝葉斯方法 180
9.5 蘑菇分類的決策樹 186
第10章 特徵的轉化 . 192
10.1 整體流程 196
10.1.1 特徵啞元化 198
10.1.2 特徵的重要性 199
10.2 減少模型特徵的個數 201
10.3 離散特徵轉化 203
10.3.1 獨熱編碼 203
10.3.2 特徵哈希 205
第11章 構造新特徵 . 208
11.1 數據探索 209
11.2 思路 211
11.2.1 用戶和品牌的各種特徵 212
11.2.2 二分類模型訓練 214
11.3 計算訓練集 214
11.3.1 原始數據劃分 214
11.3.2 計算特徵 216
11.3.3 計算標籤 223
11.4 正負樣本配比 225
11.5 決策樹 228
11.6 集成學習 229
11.6.1 Bootstrap aggregating . 229
11.6.2 Boosting 230
11.6.3 隨機森林與GBDT 233
11.7 使用隨機森林算法 234
11.8 使用GBDT算法 . 235
第12章 從二分類到多分類 237
12.1 多分類模型的評估方法 237
12.1.1 綜合指標 239
12.1.2 關於每個標籤值的二分類指標 241
12.1.3 Micro、Macro、Weighted計算的指標 241
12.2 數據探索 244
12.3 使用樸素貝葉斯算法進行多分類 246
12.4 二分類器組合 248
12.5 Softmax算法 . 252
12.6 多層感知器分類器 255
第13章 常用的多分類算法 258
13.1 數據準備 258
13.1.1 讀取MNIST數據檔案 259
13.1.2 稠密向量與稀疏向量 260
13.1.3 標籤值的統計信息 266
13.2 Softmax算法 . 267
13.3 二分類器組合 269
13.4 多層感知器分類器(MLPC) . 270
13.5 決策樹與隨機森林 272
13.6 K最近鄰算法 274
第14章 線上學習 277
14.1 整體流程 277
14.2 數據準備 279
14.3 特徵工程 281
14.4 使用特徵工程處理數據 282
14.5 線上訓練 284
14.6 模型過濾 287
第15章 回歸的由來 . 289
15.1 平均數 290
15.2 向平均數方向的“回歸” 291
15.3 線性回歸 293
第16章 常用的回歸算法 296
16.1 回歸模型的評估指標 296
16.2 數據探索 298
16.3 線性回歸 301
16.4 決策樹與隨機森林 304
16.5 GBDT . 305
第17章 常用的聚類算法 307
17.1 聚類評估指標 308
17.1.1 基本評估指標 308
17.1.2 基於標籤值的評估指標 310
17.2 K-Means聚類算法 312
17.2.1 算法簡介 312
17.2.2 K-Means實例 314
17.3 高斯混合模型算法 318
17.3.1 算法介紹 318
17.3.2 GMM實例 . 320
17.4 二分K-Means聚類算法 . 321
17.5 基於經緯度的聚類 324
第18章 批式與流式聚類 327
18.1 稠密向量與稀疏向量 327
18.2 使用聚類模型預測流式數據 329
18.3 流式聚類 332
第19章 主成分分析 . 334
19.1 主成分的含義 336
19.2 兩種計算方式 340
19.3 在聚類方面的套用 342
19.4 在分類方面的套用 346
第20章 超參數搜尋 . 350
20.1 示例一:嘗試正則係數 351
20.2 示例二:搜尋GBDT超參數 . 352
20.3 示例三:最佳聚類個數 353
第21章 文本分析 355
21.1 數據探索 355
21.2 分詞 357
21.2.1 中文分詞 357
21.2.2 Tokenizer和RegexTokenizer 361
21.3 詞頻統計 365
21.4 單詞的區分度 367
21.5 抽取關鍵字 369
21.5.1 原理簡介 370
21.5.2 示例 371
21.6 文本相似度 373
21.6.1 文本成對比較 374
21.6.2 最相似的TopN 377
21.7 主題模型 389
21.7.1 LDA模型 . 390
21.7.2 新聞的主題模型 392
21.7.3 主題與原始分類的對比 394
21.8 組件使用小結 399
第22章 單詞向量化 . 400
22.1 單詞向量預訓練模型 401
22.1.1 載入模型 401
22.1.2 查找相似的單詞 402
22.1.3 單詞向量 404
22.2 將單詞映射為向量 409
第23章 情感分析 414
23.1 使用提供的特徵 415
23.1.1 使用樸素貝葉斯方法 418
23.1.2 使用邏輯回歸算法 422
23.2 如何提取特徵 425
23.3 構造更多特徵 429
23.4 模型保存與預測 432
23.4.1 批式/流式預測任務 . 432
23.4.2 嵌入式預測 433
第24章 構建推薦系統 . 435
24.1 與推薦相關的組件介紹 436
24.2 常用的推薦算法 439
24.2.1 協同過濾 439
24.2.2 交替最小二乘法 440
24.3 數據探索 441
24.4 評分預測 446
24.5 根據用戶推薦影片 448
24.6 計算相似影片 453
24.7 根據影片推薦用戶 456
24.8 計算相似用戶 458

相關詞條

熱門詞條

聯絡我們