《機器學習線上:解析阿里雲機器學習平台》一書作者楊旭,電子工業出版社2017年8月出版
基本介紹
- 書名:機器學習線上:解析阿里雲機器學習平台
- 作者:楊旭
- ISBN:978-7-121-31869-6
- 頁數:264
- 定價:79.00
- 出版社:電子工業出版社
- 出版時間:2017年8月
- 開本:16
內容提要,目錄,
內容提要
近幾年,機器學習平台獲得了飛速發展,積累了大量高效的機器學習算法組件,基於這些組件可以快速實現業務流程、解決具體問題。阿里雲機器學習平台的豐富算法功能可以線上使用,不需要購買硬體,不需要安裝配置各種環境;數據和計算資源一直處在“線上”狀態,不必擔心數據太大或計算資源不足的問題。機器學習平台降低了我們使用機器學習知識的門檻,將各個算法作為組件,即使不了解背後的理論知識,仍可以仿照書中實例,將組件連線起來解決一些實際問題。
《機器學習線上:解析阿里雲機器學習平台》適合機器學習算法的初學者及中級用戶快速入門,在機器學習實踐中學習。
目錄
第1章 阿里雲機器學習 1
1.1 產品特點 1
1.2 名詞解釋 2
1.3 構建機器學習實驗 3
1.3.1 新建實驗 3
1.3.2 使用組件搭建工作流 4
1.3.3 運行實驗、查看結果 5
1.3.4 模型部署、線上預測 6
第2章 商家作弊行為檢測 7
2.1 數據探索 8
2.2 建模、預測和評估 15
2.3 嘗試其他分類模型 19
2.4 判斷商家作弊 24
第3章 生存預測 27
3.1 數據集一 27
3.1.1 特徵分析 28
3.1.2 生存預測 33
3.2 數據集二 36
3.2.1 隨機森林模型 39
3.2.2 樸素貝葉斯模型 47
第4章 信用風險預測 50
4.1 整體流程 53
4.1.1 特徵啞元化 54
4.1.2 特徵重要性 57
4.2 模型效果評估 61
4.3 減少模型特徵的個數 62
第5章 用戶購買行為預測 65
5.1 數據探索 66
5.2 思路 68
5.2.1 用戶和品牌的各種特徵 69
5.2.2 二分類模型訓練 71
5.3 計算訓練數據集 71
5.3.1 原始數據劃分 72
5.3.2 計算特徵 74
5.3.3 計算標籤 89
5.4 二分類模型訓練 90
5.4.1 正負樣本配比 90
5.4.2 邏輯回歸算法 92
5.4.3 隨機森林算法 94
第6章 聚類與分類 96
6.1 數據可視化 97
6.2 K-Means聚類 98
6.2.1 聚類、評估流程 100
6.2.2 聚成兩類 101
6.2.3 聚成三類 103
6.3 K最近鄰算法 104
6.3.1 使用KNN算法進行分類 105
6.3.2 算法比較 108
6.4 多分類模型 109
6.4.1 使用樸素貝葉斯算法 109
6.4.2 使用邏輯回歸多分類算法 112
6.4.3 使用隨機森林算法 115
6.4.4 各多分類模型效果對比 118
第7章 葡萄酒品質預測 119
7.1 數據探索 120
7.2 線性回歸 123
7.3 GBDT回歸 125
第8章 文本分析 127
8.1 分詞 128
8.2 詞頻統計 130
8.3 單詞的區分度 131
8.4 字元串比較 133
8.5 抽取關鍵字、關鍵句 139
8.5.1 原理簡介 139
8.5.2 完整流程 141
8.6 主題模型 146
8.6.1 LDA模型 147
8.6.2 新聞的主題模型 149
8.6.3 數據預處理 150
8.6.4 主題與原始分類的關係 153
8.7 單詞映射為向量 160
8.7.1 相近單詞 162
8.7.2 單詞聚類 165
8.8 組件使用小結 168
第9章 基於用戶退貨描述的賠付預測 170
9.1 思路 171
9.2 訓練集的特徵生成 173
9.3 測試集的特徵生成 180
9.4 模型訓練、預測、評估 181
9.5 提高召回率 185
第10章 情感分析 189
10.1 詞袋模型 190
10.1.1 訓練集的特徵生成 192
10.1.2 測試集的特徵生成 196
10.1.3 模型訓練、預測、評估 197
10.2 詞向量模型 200
10.2.1 特徵生成 201
10.2.2 模型訓練 206
第11章 影片推薦 211
11.1 協同過濾 212
11.2 整體流程 213
11.3 預處理,過濾出好評信息 215
11.4 計算影片間的相似度 215
11.5 計算用戶可能喜歡的影片 221
11.6 查看推薦效果 224
第12章 支持深度學習框架 227
12.1 TensorFlow組件簡介 227
12.2 Softmax模型 231
12.3 深度神經網路 234
附錄A 237