內容簡介
本書以網際網路電商企業為背景,抽象出工作中常見的數據分析問題恥駝,利用 R 語言和統計學列出了詳細的解決方案和過程。本書共 9 章,前兩章分別為總論和 R 語言入門知識,之後各章分別介紹了運營指標的建立、指標監控系統、假設檢驗及 AB 測試、變數篩選技術、用戶畫像系統、尋找優質用戶和文本挖掘等內容。本書涉及到的統計方法有:指標增長幅度量化方法、層次分析法、時間序列模型、基於常態分配的一元離群點檢驗、傅立葉譜分析、假設檢驗、主成分分析、因子分析、模糊聚類、無監督下連續型變數離散化、邏輯回歸模型和文本挖掘等。另外,本書提供了所有實例的 R 語言實現代碼,總計 33 個自定義函式和數千行代碼。本書適合數據分析從業人員、產品運營人員、統計專業學生和 R 語言愛好者閱讀。
作者簡介
羅榮錦:套用統計學碩士、套用數學和國際經濟與貿易雙學士。有8年數據分析工作經驗,先後從事過金融數據分析、網路遊戲數據分析、B2B資料庫行銷以及網際網路用戶行為數據分析。現就職於攜程旅行網擔任資深數據分析師,主要從事用戶行為分析研究、統計學與數據挖掘套用等工作,擅長統計建模,熟悉R語言、SAS、SPSS等數據挖悼才全探掘工具。從事數據研究工作,一定要“耐得住寂寞,忍受得了孤獨”。
目 錄
第 1 章 網際網路 統計學 R 語言1
1.1 網際網路中的統計學1
1.1.1 “網際網路 ”的發展1
1.1.2 統計學的發展2
1.1.3 大數據時代的統計學2
1.2 R 語言——網際網路與統計學的橋樑3
1.3 本書結構 5
第 2 章 R 語言基礎 7
2.1 安裝 R 語言 7
2.1.1 獲取和安裝 R 語言 7
2.1.2 安裝 RStudio 9
2.1.3 R 包 10
2.1.4 幫助12
2.2 R 語言基本對象12
2.2.1 數據類型12
2.2.2 向量12
2.2.3 矩陣和數組19
2.2.4 列表27
2.2.5 數據框29
2.2.6 因子32
2.2.7 數據類型的辨別和轉換39
2.2.8 數據類型和對象關係 39
2.3 工作空間和查看對象 40
2.3.1 工作空間和工作目錄 40
2.3.2 遍歷、創建、刪除資料夾 41
2.3.3 查看對象的方法 42
2.4 數據導入和導出43
2.4.1 數據導入43
2.4.2 數據導出49
2.5 操作符和函式51
2.5.1 操作符51
2.5.2 函式54
2.6 數據集操作59
2.6.1 變數操作60
2.6.2 數據集操作63
2.6.3 數據集連線67
2.6.4 數據匯總68
2.7 控制流71
2.7.1 重複和循環71
2.7.2 條件執行73
2.7.3 next 和 break 74
2.8 自定義函式75
第 3 章 網際網路運營指標的建立77
3.1 項目背景、目標及方案78
3.1.1 項目背景78
3.1.2 項目目標78
3.1.3 項目方案78
3.2 項目技術理論簡介78
3.2.1 骨灰級流量指標 78
3.2.2 登錄和激活80
2.2.3 訪問深度和吸引力 81
3.2.4 訂單指標85
3.2.5 網站棵乃協或 APP 性能指標86
3.2.6 轉化率87
3.2.7 層次分析法87
3.3 項目實踐 92
3.3.1 搭建運營指標系統 92
3.3.2 製作對比型指標及趨勢線 97
3.3.3 創建用戶價值和活躍度指標 101
第 4 章 指標監控系統111
4.1 項目背景、目標及方案 111
4.1.1 項目背景111
4.1.2 項目目標111
4.1.3 項目方案112
4.2 項目技術理論簡介112
4.2.1 時間序列基本統計量 112
4.2.2 數據觀測與描述性統拳喇擊計 113
4.2.3 隨機性115
4.2.4 周期性115
4.2.5 節假日模式識別 115
4.2.6 建模數據集的建立 118
4.2.7 指標監控方法(不含節假日)125
4.2.8 節假日指標監控方法 134
4.2.9 R 語言實例代碼 135
4.3 項目實踐 141
4.3.1 數據概覽142
4.3.2 節假日模糠拘紙希式識別 145
4.3.3 模型數據集的建立 155
4.3.4 指標監控(非節假日)160
4.3.5 節假日指標監控 176
4.3.6 總結181
第 5 章 用數據驅動業務——AB 測試 182
5.1 項目背景、炒匪滲立連驗目標和方案 182
5.1.1 項目背景182
5.1.2 項目目標183
5.1.3 項目方案183
5.2 項目技術理論簡介183
5.2.1 自動化分流策略 183
5.2.2 整體評估指標185
5.2.3 機率論預備知識 186
5.2.4 假設檢驗191
5.2.5 三個問題197
5.3 項目實踐 197
第 6 章 變數篩選技術204
6.1 項目背景、目標和方案 204
6.1.1 項目背景204
6.1.2 項目目標205
6.1.3 項目方案205
6.2 項目技術理論簡介205
6.2.1 變數相關性206
6.2.2 變數篩選209
6.2.3 變數降維215
6.2.4 R 語言實例代碼 225
6.3 項目實踐 237
6.3.1 變數篩選238
6.3.2 變數降維243
第 7 章 構建用戶畫像系統 247
7.1 項目背景、目標和方案 247
7.1.1 項目背景247
7.1.2 項目目標248
7.1.3 項目方案248
7.2 項目技術理論簡介248
7.2.1 用戶畫像的基本概念 248
7.2.2 用戶畫像套用領域 249
7.2.3 用戶畫像分類250
7.2.4 用戶畫像構建250
7.2.5 用戶畫像標籤的數值處理方法 254
7.3 項目實踐 256
第 8 章 從數據中尋找優質用戶 261
8.1 項目背景、目標和方案 261
8.1.1 項目背景261
8.1.2 項目目標262
8.1.3 項目方案262
8.2 項目技術理論簡介262
8.2.1 邏輯回歸的基本概念 262
8.2.2 建模流程266
8.2.3 模型開發階段269
8.2.4 模型驗證階段279
8.2.5 模型測試階段285
8.2.6 商業套用流程288
8.2.7 R 語言實例代碼 288
8.3 項目實踐 295
8.3.1 數據探索295
8.3.2 數據處理297
8.3.3 建立模型302
8.3.4 模型驗證304
8.3.5 總結308
第 9 章 文本挖掘——點評數據展示策略 309
9.1 項目背景、目標和方案 310
9.1.1 項目背景310
9.1.2 項目目標311
9.1.3 項目方案311
9.2 項目技術理論簡介312
9.2.1 評論文本質量量化指標模型 312
9.2.2 用戶相似度模型 313
9.2.3 情感性分析316
9.2.4 R 語言實例代碼 321
9.3 項目實踐 326
9.3.1 若干自定義函式 326
9.3.2 文本質量量化指標模型 329
9.3.3 用戶相似度模型 334
9.3.4 情感性分析335
9.3.5 總結340