《Alink權威指南:基於Flink的機器學習實例入門(Java)》是電子工業出版社於2021年出版的書籍。
基本介紹
- 中文名:Alink權威指南:基於Flink的機器學習實例入門(Java)
- 作者:楊旭
- 出版社:電子工業出版社
- 出版時間:2021年10月
- 頁數:472 頁
- 定價:149 元
- 開本:16 開
- ISBN:9787121420580
內容簡介,圖書目錄,
內容簡介
全書圍繞Alink(阿里在Flink基礎上做的開源版本)的展開,以實例為主闡述Alink的使用。 ?以機器學習的知識架構將各個章節串聯起來,每個章節配合實例,用戶更容易理解和入手嘗試。
圖書目錄
第1章 Alink快速上手 1
1.1 Alink是什麼 1
1.2 免費下載、安裝 1
1.3 Alink的功能 2
1.3.1 豐富的算法庫 2
1.3.2 多樣的使用體驗 3
1.3.3 與SparkML的對比 3
1.4 關於數據和代碼 4
1.5 簡單示例 5
1.5.1 數據的讀/寫與顯示 5
1.5.2 批式訓練和批式預測 7
1.5.3 流式處理和流式預測 9
1.5.4 定義Pipeline,簡化操作 10
1.5.5 嵌入預測服務系統 12
第2章 系統概況與核心概念 14
2.1 基本概念 14
2.2 批式任務與流式任務 15
2.3 Alink=A+link 18
2.3.1 BatchOperator和StreamOperator 19
2.3.2 link方式是批式算法/流式算法的通用使用方式 20
2.3.3 link的簡化 23
2.3.4 組件的主輸出與側輸出 23
2.4 Pipeline與PipelineModel 24
2.4.1 概念和定義 24
2.4.2 深入介紹 25
2.5 觸發Alink任務的執行 28
2.6 模型信息顯示 29
2.7 檔案系統與資料庫 34
2.8 Schema String 36
第3章 檔案系統與數據檔案 38
3.1 檔案系統簡介 38
3.1.1 本地檔案系統 39
3.1.2 Hadoop檔案系統 41
3.1.3 阿里雲OSS檔案系統 43
3.2 數據檔案的讀入與導出 45
3.2.1 CSV格式 47
3.2.2 TSV、LibSVM、Text格式 53
3.2.3 AK格式 56
第4章 資料庫與數據表 60
4.1 簡介 60
4.1.1 Catalog的基本操作 60
4.1.2 Source和Sink組件 61
4.2 Hive示例 62
4.3 Derby示例 65
4.4 MySQL示例 67
第5章 支持Flink SQL 70
5.1 基本操作 70
5.1.1 註冊 70
5.1.2 運行 71
5.1.3 內置函式 74
5.1.4 用戶定義函式 74
5.2 簡化操作 75
5.2.1 單表操作 76
5.2.2 兩表的連線(JOIN)操作 80
5.2.3 兩表的集合操作 82
5.3 深入介紹Table Environment 86
5.3.1 註冊數據表名 87
5.3.2 撤銷數據表名 88
5.3.3 掃描已註冊的表 89
第6章 用戶定義函式(UDF/UDTF) 90
6.1 用戶定義標量函式(UDF) 90
6.1.1 示例數據及問題 91
6.1.2 UDF的定義 91
6.1.3 使用UDF處理批式數據 92
6.1.4 使用UDF處理流式數據 93
6.2 用戶定義表值函式(UDTF) 95
6.2.1 示例數據及問題 95
6.2.2 UDTF的定義 96
6.2.3 使用UDTF處理批式數據 96
6.2.4 使用UDTF處理流式數據 99
第7章 基本數據處理 101
7.1 採樣 101
7.1.1 取“前”N個數據 102
7.1.2 隨機採樣 102
7.1.3 加權採樣 104
7.1.4 分層採樣 105
7.2 數據劃分 106
7.3 數值尺度變換 108
7.3.1 標準化 109
7.3.2 MinMaxScale 111
7.3.3 MaxAbsScale 112
7.4 向量的尺度變換 113
7.4.1 StandardScale、MinMaxScale、MaxAbsScale 113
7.4.2 正則化 115
7.5 缺失值填充 116
第8章 線性二分類模型 119
8.1 線性模型的基礎知識 119
8.1.1 損失函式 119
8.1.2 經驗風險與結構風險 121
8.1.3 線性模型與損失函式 122
8.1.4 邏輯回歸與線性支持向量機(Linear SVM) 123
8.2 二分類評估方法 125
8.2.1 基本指標 126
8.2.2 綜合指標 128
8.2.3 評估曲線 131
8.3 數據探索 136
8.3.1 基本統計 138
8.3.2 相關性 140
8.4 訓練集和測試集 144
8.5 邏輯回歸模型 145
8.6 線性SVM模型 147
8.7 模型評估 149
8.8 特徵的多項式擴展 153
8.9 因子分解機 157
第9章 樸素貝葉斯模型與決策樹模型 160
9.1 樸素貝葉斯模型 160
9.2 決策樹模型 162
9.2.1 決策樹的分裂指標定義 165
9.2.2 常用的決策樹算法 167
9.2.3 指標計算示例 169
9.2.4 分類樹與回歸樹 172
9.2.5 經典的決策樹示例 173
9.3 數據探索 176
9.4 使用樸素貝葉斯方法 179
9.5 蘑菇分類的決策樹 185