《算法與數據中台:基於Google,Facebook與微博實踐》是2020年電子工業出版社出版的圖書,作者是詹盈。
基本介紹
- 中文名:算法與數據中台:基於Google,Facebook與微博實踐
- 作者:詹盈
- 出版時間:2020年9月
- 出版社:電子工業出版社
- 頁數:328 頁
- ISBN:9787121392887
- 定價:89 元
- 開本:16 開
內容簡介,圖書目錄,作者簡介,
內容簡介
《算法與數據中台:基於Google、Facebook與微博實踐》作者依據在Google、Facebook、新浪微博及滴滴出行等中美一流網際網路公司的實際工作經歷,對算法技術、數據技術,以及圍繞它們進行的技術中台建設實踐進行了全面的探討,並在此基礎上對信息流推薦、計算廣告及智慧型出行等核心網際網路業務進行了案例剖析。
本書具有廣闊的技術視野,內容頗具深度,既適合網際網路行業的技術從業者閱讀,也適合計算機相關專業的高年級本科生、研究生閱讀。通過閱讀本書,讀者能加深對機器學習、深度學習、大數據、分散式系統及技術中台等相關領域的認知與理解,並從中獲得一定的啟發和可借鑑的經驗。
圖書目錄
第1章 算法與數據中台概述 1
1.1 中台的背景和意義 1
1.2 算法與數據中台的功能價值 3
1.3 算法與數據中台的技術體系 4
1.4 算法與數據中台的實踐場景 6
1.5 算法與數據中台的套用前景 7
1.6 本章總結 8
第2章 中台技術之基礎設施 10
2.1 研發效率系統 10
2.1.1 代碼組織和構建 11
2.1.2 代碼審查和任務管理 13
2.1.3 持續集成 15
2.1.4 通用壓測平台 17
2.2 服務通信系統 19
2.2.1 跨進程通信框架 20
2.2.2 服務註冊與發現 21
2.2.3 服務治理 24
2.3 監控報警系統 25
2.3.1 通用系統架構 25
2.3.2 指標計算模型 26
2.3.3 開源解決方案 27
2.4 鏈路跟蹤系統 29
2.4.1 套用場景與設計目標 30
2.4.2 系統架構 30
2.5 本章總結 32
第3章 中台技術之線上算法系統 33
3.1 物料檢索系統 34
3.1.1 倒排檢索 35
3.1.2 倒排索引實例 37
3.1.3 相似檢索 38
3.1.4 相似檢索實例 40
3.1.5 模型粗排 40
3.2 模型預估服務 41
3.2.1 整體架構 42
3.2.2 多框架支持 43
3.2.3 模型上線 44
3.2.4 線上預估 45
3.2.5 異構設備 46
3.2.6 性能最佳化 47
3.2.7 效果監控 49
3.3 策略機制引擎 50
3.3.1 整體架構 50
3.3.2 計算流解釋器 51
3.3.3 Lua 解釋器 52
3.4 集群管理平台 53
3.4.1 多租戶架構 53
3.4.2 集群動態管理 54
3.4.3 集群性能監控 57
3.4.4 配置動態分發 59
3.5 效果評估系統 60
3.5.1 背景介紹 61
3.5.2 設計模式 61
3.5.3 系統架構 62
3.5.4 指標計算 64
3.6 本章總結 65
第4章 中台技術之機器學習平台 66
4.1 機器學習平台簡介 66
4.1.1 機器學習的研發流程 67
4.1.2 機器學習的研發挑戰 69
4.1.3 機器學習的研發技術 69
4.2 傳統機器學習算法 73
4.2.1 線性算法 73
4.2.2 因子分解機算法 77
4.2.3 決策樹算法 81
4.3 深度學習算法 84
4.3.1 發展簡史 85
4.3.2 神經元模型 86
4.3.3 神經網路模型 87
4.3.4 神經網路的算法原理 88
4.4 模型框架基本原理 94
4.4.1 分散式計算架構 94
4.4.2 並行計算的同步機制 99
4.4.3 梯度更新算法 102
4.5 層結構的模型框架 108
4.5.1 Caffe 109
4.5.2 DistBelief 110
4.5.3 WBLEngine 112
4.5.4 小結 116
4.6 數據流結構的模型框架 116
4.6.1 TensorFlow 116
4.6.2 PyTorch 122
4.6.3 小結 126
4.7 複合結構的模型框架 126
4.7.1 場景特點 126
4.7.2 設計思路 127
4.7.3 架構與實現 128
4.7.4 性能最佳化 131
4.7.5 小結 132
4.8 機器學習平台簡介 132
4.8.1 單業務線開發階段 132
4.8.2 平台化建設階段 133
4.8.3 業界知名產品 134
4.9 新浪微博 WBL 機器學習平台 135
4.9.1 用戶操作界面 136
4.9.2 管理中心 138
4.9.3 數據中心 140
4.9.4 調度中心 141
4.9.5 智慧型中心 144
4.9.6 模型中心 145
4.10 本章總結 147
第5章 中台技術之分散式資料庫 148
5.1 分散式資料庫概述 148
5.1.1 SQL 資料庫 148
5.1.2 NoSQL 資料庫 149
5.1.3 NewSQL 資料庫 150
5.2 分散式資料庫技術 150
5.2.1 ACID 理論 151
5.2.2 CAP 理論 151
5.2.3 BASE 理論 153
5.2.4 數據分片策略 154
5.2.5 數據複製策略 157
5.2.6 Gossip 協定 158
5.2.7 分散式一致性協定 160
5.2.8 分散式事務協定 167
5.3 分散式資料庫產品 170
5.3.1 Redis 170
5.3.2 Google BigTable 170
5.3.3 Google Spanner 173
5.4 LaserDB 分散式資料庫 177
5.4.1 系統架構 178
5.4.2 數據模型 179
5.4.3 分片策略 180
5.4.4 批量載入 181
5.4.5 同步機制 182
5.4.6 高可用架構 184
5.4.7 高性能方案 185
5.5 LaserDB 套用案例分析 188
5.5.1 數據快取 188
5.5.2 特徵服務 189
5.5.3 向量存儲 190
5.5.4 樣本拼接 190
5.6 本章總結 191
第6章 中台技術之大數據平台 192
6.1 大數據平台概述 192
6.1.1 大數據的特點 192
6.1.2 大數據平台的技術棧 193
6.2 分散式協調系統 194
6.2.1 Google Chubby 195
6.2.2 Apache ZooKeeper 196
6.2.3 Consul 197
6.3 集群管理系統 199
6.3.1 Google Borg 200
6.3.2 Kubernetes 202
6.3.3 Apache YARN 203
6.4 分散式檔案系統 205
6.4.1 Google GFS 205
6.4.2 Apache HDFS 207
6.4.3 Dropbox MagicPocket 209
6.5 訊息管道系統 210
6.5.1 Google PubSub 211
6.5.2 Apache Kafka 213
6.6 分散式計算系統 214
6.6.1 MapReduce 214
6.6.2 Apache Spark 216
6.6.3 Apache Flink 218
6.6.4 Apache Beam 220
6.7 數據倉庫與分散式查詢系統 221
6.7.1 Google BigQuery 222
6.7.2 Apache Hive 223
6.7.3 Facebook Presto 224
6.7.4 Facebook Scuba 226
6.8 本章總結 227
第7章 中台實踐之推薦系統 228
7.1 推薦系統的背景簡介 228
7.1.1 場景概況 229
7.1.2 整體架構 230
7.1.3 推薦思路 233
7.2 推薦系統的算法模型 235
7.2.1 GBDT-LR 融合模型 235
7.2.2 Wide & Deep 模型 237
7.2.3 DeepFM 模型 238
7.2.4 雙塔模型 238
7.2.5 多任務模型 239
7.2.6 算法的發展趨勢 241
7.3 推薦系統的效果度量 244
7.3.1 體驗指標 244
7.3.2 算法指標 245
7.4 Facebook 信息流推薦簡介 250
7.4.1 數據分發系統 251
7.4.2 特徵服務 252
7.4.3 索引系統 254
7.4.4 預估與排序服務 255
7.4.5 實時樣本拼接服務 256
7.4.6 模型訓練平台 257
7.5 本章總結 258
第8章 中台實踐之數字廣告 259
8.1 數字廣告的背景簡介 259
8.1.1 核心概念 260
8.1.2 契約廣告 261
8.1.3 競價廣告 262
8.1.4 程式化交易廣告 263
8.2 數字廣告系統架構 264
8.2.1 業務平台 265
8.2.2 算法與數據中台 265
8.3 數字廣告系統中的數據管理 266
8.3.1 站內數據 267
8.3.2 站外數據 267
8.4 數字廣告系統中的客群定向 268
8.4.1 內容定向 268
8.4.2 用戶標籤定向 269
8.4.3 定製化標籤定向 269
8.4.4 社交關係定向 270
8.4.5 智慧型定向 270
8.5 數字廣告系統中的策略機制 270
8.5.1 流量預測 271
8.5.2 線上分配 271
8.5.3 頻次控制 272
8.5.4 平滑投放 272
8.5.5 探索策略 273
8.5.6 智慧型出價 274
8.5.7 廣告競價 276
8.5.8 反作弊機制 277
8.6 本章總結 277
第9章 中台實踐之網約車平台 278
9.1 業務簡介 279
9.1.1 業務背景 279
9.1.2 運作流程 281
9.1.3 用戶體驗 281
9.2 技術架構 282
9.2.1 分層系統架構 282
9.2.2 業務中台 283
9.2.3 算法與數據中台 285
9.3 打車定價場景 286
9.3.1 場景描述 286
9.3.2 價格動態下浮策略 287
9.3.3 價格動態上浮策略 289
9.3.4 小結 290
9.4 打車排隊場景 290
9.4.1 場景描述 290
9.4.2 排隊時間預估策略 291
9.4.3 小結 292
9.5 打車安全場景 292
9.5.1 場景描述 292
9.5.2 安全策略 293
9.5.3 小結 294
9.6 本章總結 294
參考文獻 295
作者簡介
詹盈,本科畢業於南京大學,後赴美攻讀計算機博士學位。先後就職於 Google、Facebook 以及新浪微博,歷任主任架構師、算法總監等職位。長期致力於機器學習算法、算法工程平台和大規模個性化系統等方向的技術研究以及團隊管理工作,對推薦系統、計算廣告、大數據和雲計算等相關業務領域有著長期深入的工作經驗和成功實踐。
鄭旭飛,先後就職於 360 搜尋、滴滴出行以及新浪微博,歷任算法專家和資深工程師等職位,對搜尋、推薦、廣告等個性化系統以及機器學習平台有著豐富的實踐經驗。