《從零開始構建企業級推薦系統》由電子工業出版社於2020年7月出版,作者是張相於。
基本介紹
- 書名:從零開始構建企業級推薦系統
- 作者:張相於
- 出版社:電子工業出版社
- 出版時間:2020年7月
- 頁數:320 頁
- 定價:89 元
- 開本:16 開
- ISBN:9787121391514
內容簡介,圖書目錄,
內容簡介
本書是一本面向實踐的企業級推薦系統開發指南,內容包括產品設計、相關性算法、排序模型、工程架構、效果評測、系統監控等推薦系統核心部分的設計與開發,可以幫助開發者逐步構建一個完整的推薦系統,並提供了持續最佳化的系統性思路。本書注重從系統性和通用性的角度看待推薦系統的核心問題,希望能夠幫助讀者做到知其然,也知其所以然,更能夠舉一反三,真正掌握推薦系統的核心本質。此外,本書對於推薦系統開發中常見的問題和陷阱,以及系統構建過程,也做了重點介紹,力求讓讀者不僅知道做什麼,而且知道怎么做。本書的目標讀者是推薦系統研發工程師、產品經理以及對推薦系統感興趣的學生和從業者。
圖書目錄
第1章 推薦系統的時代背景 1
1.1 為什麼需要推薦系統 1
1.1.1 提高流量利用效率 1
1.1.2 挖掘和匹配長尾需求 6
1.1.3 提升用戶體驗 7
1.1.4 技術積累 8
1.2 推薦的產品問題 10
1.2.1 推薦什麼東西 10
1.2.2 為誰推薦 13
1.2.3 推薦場景 14
1.2.4 推薦解釋 16
1.3 總結 18
第2章 推薦系統的核心技術概述 19
2.1 核心邏輯拆解 19
2.2 整體流程概述 20
2.3 召回算法 21
2.4 基於行為的召回算法 24
2.5 用戶畫像和物品畫像 24
2.6 結果排序 26
2.7 評價指標 26
2.8 系統監控 27
2.9 架構設計 28
2.10 發展歷程 28
2.11 總結 30
第3章 基礎推薦算法 31
3.1 推薦邏輯流程架構 31
3.2 召回算法的基本邏輯 34
3.3 常用的基礎召回算法 36
3.3.1 用戶與物品的相關性 36
3.3.2 物品與物品的相關性 42
3.3.3 用戶與用戶的相關性 46
3.3.4 用戶與標籤的相關性 47
3.3.5 標籤與物品的相關性 48
3.3.6 相關性召回的鏈式組合 50
3.4 冷啟動場景下的推薦 51
3.5 總結 53
第4章 算法融合與數據血統 54
4.1 線性加權融合 55
4.2 優先權融合 57
4.3 基於機器學習的排序融合 59
4.4 融合策略的選擇 61
4.5 融合時機的選擇 63
4.6 數據血統 64
4.6.1 融合策略正確性驗證 65
4.6.2 系統效果監控 65
4.6.3 策略效果分析 67
4.7 總結 68
第5章 機器學習技術的套用 69
5.1 機器學習技術概述 69
5.2 推薦系統中的套用場景 70
5.3 機器學習技術的實施方法 72
5.3.1 老系統與數據準備 72
5.3.2 問題分析與目標定義 74
5.3.3 樣本處理 76
5.3.4 特徵處理 80
5.3.5 模型選擇與訓練 98
5.3.6 模型效果評估 101
5.3.7 預測階段效果監控 104
5.3.8 模型訓練系統架構設計 105
5.3.9 模型預測系統架構設計 108
5.4 常用模型介紹 109
5.4.1 邏輯回歸模型 109
5.4.2 GBDT模型 111
5.4.3 LR+GDBT模型 112
5.4.4 因子分解機模型 113
5.4.5 Wide & Deep模型 115
5.4.6 其他深度學習模型 116
5.5 機器學習實踐常見問題 117
5.5.1 反模式1:只見模型,不見系統 117
5.5.2 反模式2:忽視模型過程和細節 117
5.5.3 反模式3:不注重樣本精細化處理 118
5.5.4 反模式4:過於依賴算法 119
5.5.5 反模式5:核心數據缺乏控制 120
5.5.6 反模式6:團隊不夠“全棧” 121
5.5.7 反模式7:系統邊界模糊導致出現“巨型系統” 121
5.5.8 反模式8:不重視基礎數據架構建設 122
5.6 總結 123
第6章 用戶畫像系統 124
6.1 用戶畫像的概念和作用 124
6.2 用戶畫像的價值準則 126
6.3 用戶畫像的構成要素 128
6.3.1 物品側畫像 129
6.3.2 用戶側畫像 133
6.3.3 用戶畫像擴展 139
6.3.4 用戶畫像和排序特徵的關係 142
6.4 用戶畫像系統的架構演進 143
6.4.1 用戶畫像系統的組成部分 143
6.4.2 野蠻生長期 144
6.4.3 統一用戶畫像系統架構 145
6.5 總結 147
第7章 系統效果評測與監控 148
7.1 評測與監控的概念和意義 148
7.2 推薦系統的評測指標系統 150
7.3 常用指標 151
7.4 離線效果評測方法 158
7.5 線上效果評測方法 163
7.5.1 AB實驗 163
7.5.2 交叉實驗 173
7.6 系統監控 178
7.7 總結 181
第8章 推薦效果最佳化 182
8.1 準確率最佳化的一般性思路 183
8.2 覆蓋率最佳化的一般性思路 185
8.3 行為類相關性算法最佳化 188
8.3.1 熱度懲罰 188
8.3.2 時效性最佳化 190
8.3.3 隨機遊走 194
8.3.4 嵌入表示 196
8.4 內容類相關性算法最佳化 200
8.4.1 非結構化算法 201
8.4.2 結構化算法 201
8.5 影響效果的非算法因素 205
8.5.1 用戶因素 205
8.5.2 產品設計因素 206
8.5.3 數據因素 208
8.5.4 算法策略因素 208
8.5.5 工程架構因素 209
8.6 總結 210
第9章 自然語言處理技術的套用 211
9.1 詞袋模型 212
9.2 權重計算和向量空間模型 214
9.3 隱語義模型 216
9.4 機率隱語義模型 218
9.5 生成式機率模型 220
9.6 LDA模型的套用 222
9.6.1 相似度計算 222
9.6.2 排序特徵 222
9.6.3 物品打標籤&用戶打標籤 223
9.6.4 主題&詞的重要性度量 223
9.6.5 更多套用 224
9.7 神經機率語言模型 224
9.8 行業套用現狀 226
9.9 總結和展望 227
第10章 探索與利用問題 228
10.1 多臂老虎機問題 228
10.2 推薦系統中的EE問題 230
10.3 解決方案 231
10.3.1 ?-Greedy算法 231
10.3.2 UCB 234
10.3.3 湯普森採樣 236
10.3.4 LinUCB 237
10.4 探索與利用原理在機器學習系統中的套用 239
10.5 EE問題的本質和影響 240
10.6 總結 241
第11章 推薦系統架構設計 242
11.1 架構設計概述 242
11.2 系統邊界和外部依賴 244
11.3 離線層、線上層和近線層架構 246
11.4 離線層架構 247
11.5 近線層架構 249
11.6 線上層架構 252
11.7 架構層級對比 255
11.8 系統和架構演進原則 256
11.8.1 從簡單到複雜 256
11.8.2 從離線到線上 258
11.8.3 從統一到拆分 258
11.9 基於領域特定語言的架構設計 259
11.10 總結 262
第12章 推薦系統工程師成長路線 263
12.1 基礎開發能力 264
12.1.1 單元測試 264
12.1.2 邏輯抽象復用 264
12.2 機率和統計基礎 265
12.3 機器學習理論 266
12.3.1 基礎理論 267
12.3.2 監督學習 268
12.3.3 無監督學習 269
12.4 開發語言和開發工具 270
12.4.1 開發語言 270
12.4.2 開發工具 270
12.5 算法最佳化流程 271
12.6 推薦業務技能 273
12.7 總結 274
第13章 推薦系統的挑戰 275
13.1 數據稀疏性 275
13.2 推薦結果解釋 277
13.3 相關性和因果性 281
13.4 信息繭房 283
13.5 轉化率預估偏差問題 286
13.6 召回模型的局限性問題 288
13.7 用戶行為捕捉粒度問題 290
13.8 總結 291