數據科學工程實踐

數據科學工程實踐

《數據科學工程實踐:用戶行為分析與建模、A/B實驗、SQLFlow》由機械工業出版社出版,這是一本將數據科學三要素一一商業理解、量化模型、數據技術全面打通的實戰性著作。

基本介紹

  • 中文名:數據科學工程實踐
  • 別名:用戶行為分析與建模、A/B實驗、SQLFlow
  • 作者:謝梁+繆瑩瑩+高梓堯+王子玲
  • 出版社:機械工業出版社
  • 出版時間:2021年6月1日
  • 頁數:259 頁
  • 定價:89 元
  • 開本:16 開
  • 裝幀:平裝
  • ISBN:9787111682547
內容簡介,圖書目錄,

內容簡介

這是一本將數據科學三要素一一商業理解、量化模型、數據技術全面打通的實戰性著作,是來自騰訊、滴滴、快手等一線網際網路企業的數據科學家、數據分析師和算法工程師的經驗總結,得到了SQLFlow創始人以及騰訊、網易、快手、貝殼找房、谷歌等企業的專家推薦。
  《數據科學工程實踐:用戶行為分析與建模、A/B實驗、SQLFlow》三個部分,內容相對獨立,既能幫助初學者建立知識體系,又能幫助從業者解決商業中的實際問題,還能幫助有經驗的專家快速掌握數據科學的新技術和發展動向。內容圍繞非實驗環境下的觀測數據的分析、實驗的設計和分析、自助式數據科學平台3大主題展開,涉及統計學、經濟學、機器學習、實驗科學等多個領域,包含大量常用的數據科學方法、簡潔的代碼實現和經典的實戰案例。
  第1部分(第1-6章)觀測數據的分析技術
  講解了非實驗環境下不同觀測數據分析場景所對應的分析框架、原理及實際操作,包括消費者選擇偏好分析、消費者在時間維度上的行為分析、基於機器學習的用戶生命周期價值預測、基於可解釋模型技術的商業場景挖掘、基於矩陣分解技術的用戶行為規律發現與挖掘,以及在不能進行實驗分析時如何更科學地進行全量評估等內容。第二部分(第7~9章)實驗設計和分析技術
  從A/B實驗的基本原理出發,深入淺出地介紹了各種商業場景下進行實驗設計需要參考的原則和運用的方法,尤其是在有樣本量約束條件下提升實驗效能的方法及商業場景限制導致的非傳統實驗設計。
  第三部分(第10~12章)自助式數據科學平台SQLFlow
  有針對性地講解了開源的工程化的自助式數據科學平台SQLFlow,並通過系統配置、黑盒模型的解讀器套用、聚類分析場景等案例幫助讀者快速了解這一面向未來的數據科學技術。

圖書目錄

作者簡介
序一
序二
前言
第一部分 觀測數據的分析技術
第1章 如何分析用戶的選擇 2
1.1 深入理解選擇行為 2
1.1.1 選擇無處不在 2
1.1.2 選擇行為的經濟學理論 4
1.1.3 離散選擇模型 5
1.2 DCM詳述 6
1.2.1 從經濟模型到計量模型 6
1.2.2 DCM的套用場景 9
1.2.3 DCM的重要數學知識 10
1.3 DCM模型的Python實踐 13
1.3.1 軟體包和數據格式 13
1.3.2 使用邏輯回歸分析自駕選擇問題 16
1.3.3 使用多項Logit模型分析多種交通方式選擇問題 21
1.3.4 使用嵌套Logit模型分析多種交通方式選擇問題 24
1.4 本章小結 26
第2章 與時間相關的行為分析 27
2.1 生存分析與二手車定價案例 27
2.1.1 二手車定價背景 27
2.1.2 為什麼不選擇一般回歸模型 28
2.1.3 為什麼選擇生存分析 29
2.2 生存分析的理論框架 29
2.2.1 生存分析基本概念界定 30
2.2.2 生存函式刻畫及簡單對比 34
2.2.3 生存函式回歸及個體生存機率的預測 36
2.3 生存分析在二手車定價案例中的套用 37
2.3.1 軟體包、數據格式和數據讀入 38
2.3.2 繪製二手車銷售生存曲線及差異對比 40
2.3.3 二手車銷售生存機率影響因素分析及個體預測 43
2.3.4 基於Cox風險比例模型的最優價格求解 44
2.4 本章小結 46
第3章 洞察用戶長期價值:基於神經網路的LTV建模 47
3.1 用戶長期價值的概念和商業套用 47
3.1.1 用戶長期價值 47
3.1.2 用戶生命周期和用戶長期價值 48
3.1.3 LTV的特點 49
3.1.4 LTV分析能解決的問題 50
3.1.5 LTV的計算方法 50
3.2 基於Keras的LTV模型實踐 52
3.2.1 Keras介紹 52
3.2.2 數據的載入和預處理 52
3.2.3 輸入數據的準備 56
3.2.4 模型搭建和訓練 61
3.2.5 模型分析 65
3.3 本章小結 66
第4章 使用體系化分析方法進行場景挖掘 67
4.1 經驗化分析與體系化分析 67
4.1.1 經驗化分析的局限性 67
4.1.2 體系化分析的優勢 68
4.2 體系化分析常用工具 69
4.2.1 黑盒模型與白盒模型 69
4.2.2 可解釋模型—決策樹 69
4.2.3 全局代理模型 73
4.2.4 場景挖掘模型分析方法框架 75
4.3 場景挖掘分析的套用與實現 75
4.3.1 數據背景及數據處理 76
4.3.2 經驗化分析方法套用 76
4.3.3 場景挖掘模型的Python實現與模型解讀 79
4.4 本章小結 86
第5章 行為規律的發現與挖掘 87
5.1 對有序數據的規律分析 88
5.1.1 有序數據及SVD方法概述 88
5.1.2 SVD原理及推導 88
5.2 SVD聚類建模Python實戰 93
5.3 對無序稀疏數據的規律分析 101
5.3.1 稀疏數據及NMF方法概述 101
5.3.2 NMF原理及推導 102
5.3.3 NMF聚類建模Python實戰 103
5.4 本章小結 109
第6章 對觀測到的事件進行因果推斷 110
6.1 使用全量評估分析已發生的事件 110
6.2 全量評估的主要方法 111
6.2.1 回歸分析 111
6.2.2 DID方法 118
6.2.3 合成控制 120
6.2.4 Causal Impact方法 122
6.3 全量評估方法的套用 124
6.3.1 使用回歸建模方法對物流單量變化進行全量評估 125
6.3.2 使用DID方法評估恐怖主義對經濟的影響 131
6.3.3 用合成控制法評估恐怖主義對經濟的影響 134
6.3.4 用Causal Impact方法評估天氣情況 136
6.4 本章小結 146
第二部分 實驗設計和分析技術
第7章 如何比較兩個策略的效果 148
7.1 正確推斷因果關係 148
7.1.1 相關性謬誤 148
7.1.2 潛在結果和因果效果 149
7.2 運用A/B實驗進行策略比較 150
7.2.1 什麼是A/B實驗 151
7.2.2 為什麼套用A/B實驗 151
7.2.3 A/B實驗的基本原理 151
7.3 A/B實驗套用步驟 152
7.3.1 明確實驗要素 152
7.3.2 實驗設計 154
7.3.3 實驗過程監控 155
7.4 A/B實驗案例 156
7.4.1 實驗場景介紹 156
7.4.2 實驗方法設計 157
7.4.3 實驗效果評估 157
7.5 本章小結 159
第8章 提高實驗效能 160
8.1 控制實驗指標方差的必要性和手段 160
8.2 用隨機區組設計控制實驗指標方差 161
8.2.1 利用隨機區組實驗降低方差 161
8.2.2 隨機區組實驗的特徵選擇 162
8.3 隨機區組實驗套用步驟 163
8.4 隨機區組實驗案例介紹 167
8.4.1 背景介紹 168
8.4.2 基本設計 168
8.4.3 隨機區組實驗相關的設計 168
8.4.4 效果評估 169
8.5 隨機區組實驗的常見問題 170
8.6 本章小結 171
第9章 特殊場景下的實驗設計和分析方法 172
9.1 解決分流實驗對象之間的干擾 172
9.1.1 使用隨機飽和度實驗減少實驗對象之間的影響 173
9.1.2 隨機濃度實驗的設計流程 174
9.1.3 隨機濃度實驗評估方法及案例 175
9.2 Switchback實驗和評估方法 178
9.2.1 不能使用隨機分流策略的情況 178
9.2.2 Switchback實驗的基本原理 178
9.2.3 Switchback實驗中關於時空切片的聚類方法 179
9.2.4 Switchback實驗的評估方法 180
9.3 交叉實驗 182
9.3.1 交叉實驗的基本概念 183
9.3.2 常見的交叉實驗設計矩陣 183
9.3.3 交叉實驗評估及矩陣誤差說明 185
9.3.4 交叉實驗評估案例 186
9.4 強約束條件下的實驗方法 189
9.4.1 強約束條件場景 189
9.4.2 多基線實驗設計的解決思路 189
9.4.3 多基線實驗的設計流程 190
9.4.4 多基線實驗的評估方法和案例 192
9.5 本章小結 195
第三部分 自助式數據科學平台SQLFlow
第10章 SQLFlow 198
10.1 SQLFlow簡介 198
10.1.1 什麼是SQLFlow 198
10.1.2 SQLFlow的定位和目標 199
10.1.3 SQLFlow的工作原理 200
10.2 設定SQLFlow運行環境 201
10.2.1 通過Docker使用SQLFlow 201
10.2.2 環境配置 205
10.2.3 互動 210
10.2.4 Jupyter Notebook 210
10.2.5 REPL 211
10.3 向SQLFlow提交分析模型 211
10.4 本章小結 214
第11章 機器學習模型可解釋性 215
11.1 模型的可解釋性 215
11.1.1 模型可解釋的重要性 215
11.1.2 模型可解釋的必要性 216
11.2 常見的可解釋模型 216
11.2.1 線性回歸 216
11.2.2 邏輯回歸 219
11.2.3 決策樹 224
11.2.4 KNN算法 225
11.2.5 樸素貝葉斯分類器 228
11.2.6 模型比較 229
11.3 黑盒模型的解釋性 230
11.3.1 黑盒模型解釋方法 230
11.3.2 SQLFlow中的黑盒模型解釋套用 233
11.4 本章小結 237
第12章 基於LSTM-Autoencoder的無監督聚類模型 238
12.1 聚類分析的廣泛套用 238
12.2 聚類模型的套用案例 239
12.2.1 K均值聚類 239
12.2.2 層次聚類 245
12.3 SQLFlow中基於深度學習的聚類模型 250
12.3.1 基於深度學習的聚類算法原理 250
12.3.2 城市道路交通狀況的模式識別與聚類 256
12.4 本章小結 259

相關詞條

熱門詞條

聯絡我們