《實踐方法與行業案例》是於2017年2月機械工業出版社出版的一本圖書,作者是陳春寶。
基本介紹
- 書名:實踐方法與行業案例
- 作者:陳春寶
- 出版社:機械工業出版社
- 出版時間:2017年2月
內容簡介,作者簡介,圖書目錄,
內容簡介
.三位資深大數據專家近10年經驗總結,多位銀行、網際網路金融與Fintech公司大咖聯袂推薦。本書立足商業實踐,結合典型業務場景,詳細闡述數據從獲取、預處理、挖掘、建模、結論分析與展現到系統套用的整個流程。就完整性而言,覆蓋數據、平台、分析和套用等企業內數據流轉的主要環節;就內容而言,拋棄了理論與公式的堆積以及小明式的人造案例,選取大量翔實的案例展現數據從線下分析到線上套用的企業實戰過程;就寫作手法而言,力求兼顧實用主義和理論深度,用淺顯的語言介紹複雜的分析套用過程,從實戰角度詮釋理論技術和算法的具體套用;就布局而言,按照數據與平台篇、分析篇和套用篇分別撰寫。
作者簡介
陳春寶 上海交通大學工業工程博士,經濟學碩士。在銀行、信用卡、醫藥與電信等行業擁有近10年數據挖掘分析與SAS建模經驗,現就職於商業銀行,在數據挖掘、機器學習和業務諮詢方面有著獨到的見解。工作跨大數據、行銷、風險、運營等多個領域,擅長診斷各類業務問題,套用商業和數據分析手段獲得創新性的解決方案,並幫助業務部門落地。曾經擔任MSA諮詢顧問、交通銀行信用卡中心數據分析經理、上海交通大學工程碩士企業導師。在SCI&EI索引期刊發表論文10餘篇。
圖書目錄
第一部分 數據與平台篇
第1章 數據與數據平台 3
1.1 數據的基本形態 4
1.1.1 數據環境與數據形態 4
1.1.2 生產數據 5
1.1.3 原始數據 5
1.1.4 分析數據 6
1.2 數據平台 7
1.2.1 數據倉庫平台 9
1.2.2 大數據平台 13
1.2.3 MPP資料庫 22
1.2.4 NoSQL資料庫 23
1.3 套用系統 24
1.4 本章小結 25
第2章 數據體系 26
2.1 數據閉環 27
2.2 數據緩衝區 28
2.2.1 系統解耦 29
2.2.2 批量導出 31
2.2.3 FTP傳輸 40
2.2.4 批量導入 42
2.3 ETL 49
2.3.1 ETL工具 50
2.3.2 ETL作業 52
2.4 作業調度 56
2.5 監控和預警 56
2.5.1 使用監控工具進行監控 57
2.5.2 使用BI工具進行監控 57
2.6 本章小結 57
第3章 實戰:打造數據閉環 59
3.1 數據緩衝區的基本規則 60
3.1.1 檔案存儲規則 61
3.1.2 檔案命名規則 61
3.1.3 檔案清理規則 62
3.2 自動載入的流程 62
3.2.1 掃描檔案 63
3.2.2 下載檔案 64
3.2.3 解壓檔案 65
3.2.4 載入檔案 65
3.3 自動載入程式的資料庫設計 66
3.3.1 數據檔案信息表 67
3.3.2 數據檔案狀態表 68
3.3.3 載入配置信息表 69
3.3.4 數據緩衝區信息表 70
3.3.5 目標伺服器表 70
3.4 自動載入程式的多執行緒實現 71
3.4.1 ScanFiles 72
3.4.2 DownLoadAndUnZip 75
3.4.3 LoadToHive 77
3.4.4 LoadToOracle 78
3.4.5 自動載入程式的部署架構 79
3.4.6 程式的維護和最佳化 80
3.5 本章小結 80
第1章 數據與數據平台 3
1.1 數據的基本形態 4
1.1.1 數據環境與數據形態 4
1.1.2 生產數據 5
1.1.3 原始數據 5
1.1.4 分析數據 6
1.2 數據平台 7
1.2.1 數據倉庫平台 9
1.2.2 大數據平台 13
1.2.3 MPP資料庫 22
1.2.4 NoSQL資料庫 23
1.3 套用系統 24
1.4 本章小結 25
第2章 數據體系 26
2.1 數據閉環 27
2.2 數據緩衝區 28
2.2.1 系統解耦 29
2.2.2 批量導出 31
2.2.3 FTP傳輸 40
2.2.4 批量導入 42
2.3 ETL 49
2.3.1 ETL工具 50
2.3.2 ETL作業 52
2.4 作業調度 56
2.5 監控和預警 56
2.5.1 使用監控工具進行監控 57
2.5.2 使用BI工具進行監控 57
2.6 本章小結 57
第3章 實戰:打造數據閉環 59
3.1 數據緩衝區的基本規則 60
3.1.1 檔案存儲規則 61
3.1.2 檔案命名規則 61
3.1.3 檔案清理規則 62
3.2 自動載入的流程 62
3.2.1 掃描檔案 63
3.2.2 下載檔案 64
3.2.3 解壓檔案 65
3.2.4 載入檔案 65
3.3 自動載入程式的資料庫設計 66
3.3.1 數據檔案信息表 67
3.3.2 數據檔案狀態表 68
3.3.3 載入配置信息表 69
3.3.4 數據緩衝區信息表 70
3.3.5 目標伺服器表 70
3.4 自動載入程式的多執行緒實現 71
3.4.1 ScanFiles 72
3.4.2 DownLoadAndUnZip 75
3.4.3 LoadToHive 77
3.4.4 LoadToOracle 78
3.4.5 自動載入程式的部署架構 79
3.4.6 程式的維護和最佳化 80
3.5 本章小結 80
第二部分 分 析 篇
第4章 數據預處理 83
4.1 數據表的預處理 84
4.2 變數的預處理 85
4.2.1 缺失值的處理 85
4.2.2 極值的處理 90
4.3 變數的設計 91
4.3.1 暴力衍生 91
4.3.2 交叉升維 92
4.4 變數篩選 95
4.4.1 篩選顯著變數 95
4.4.2 剔除共線性 96
4.5 本章小結 100
第5章 聚類,簡單易用的客戶細分方法 101
5.1 從客戶細分說起 102
5.1.1 為什麼要做客戶細分 102
5.1.2 怎么做客戶細分 103
5.1.3 聚類分析,無監督的客戶細分方法 107
5.2 譜系聚類 107
5.2.1 基本步驟 107
5.2.2 案例:公司客戶差異化服務 110
5.2.3 譜系聚類方法的題外話 115
5.3 K-means算法 116
5.3.1 基本步驟 116
5.3.2 案例:電商賣家細分 117
5.3.3 K-means算法的題外話 121
5.4 本章小結 121
第6章 關聯規則挖掘,發現產品
載入和交叉銷售機會 122
6.1 銷售的真諦:讓客戶買得更多 123
6.1.1 案例:電商的生意經 123
6.1.2 案例:富國銀行的“商店”經營模式 124
6.1.3 案例總結 125
6.2 交叉銷售 126
6.2.1 為什麼要做交叉銷售 126
6.2.2 怎么做交叉銷售 126
6.3 關聯規則挖掘,發現交叉銷售機會 128
6.3.1 Apriori算法 129
6.3.2 Apriori算法的主要指標 129
6.3.3 Apriori算法的基本步驟 131
6.4 案例:信用卡產品交叉銷售 131
6.4.1 準備數據 132
6.4.2 SAS實現 132
6.4.3 結果分析 133
6.4.4 序列關聯分析 136
6.4.5 結果套用 137
6.5 本章小結 138
第7章 社交網路分析,從“關係”
的角度分析問題 139
7.1 先看幾張美輪美奐的圖片 140
7.2 社交網路分析方法 142
7.2.1 定義 142
7.2.2 套用場景 142
7.2.3 網路識別算法 143
7.3 案例:電商通過訂單數據識別供應鏈 144
7.3.1 供應鏈及供應鏈金融 144
7.3.2 識別核心企業及其上下游關係 144
7.3.3 分析結果的業務套用 149
7.4 案例:P2P投資風險防範 151
7.4.1 案例背景 151
7.4.2 防範方法 152
7.5 本章小結 153
第8章 線性回歸,預測客戶價值 155
8.1 數值預測 156
8.2 回歸與擬合 157
8.2.1 回歸就是擬合 157
8.2.2 在Excel中添加趨勢線預測 158
8.3 案例:信用卡客戶價值預測 159
8.3.1 確定預測目標 159
8.3.2 準備建模數據 161
8.3.3 模型擬合 163
8.3.4 模型評估 165
8.4 基於客戶價值分層的業務策略 167
8.5 本章小結 167
第9章 Logistic回歸,精準行銷的
主要支撐算法 169
9.1 大數據時代的精準行銷 170
9.1.1 精準行銷 170
9.1.2 基於大數據的精準行銷模式 171
9.1.3 如何做到精準 172
9.2 Logistic回歸算法介紹 173
9.2.1 算法原理 173
9.2.2 關鍵步驟 174
9.3 案例:信用卡消費信貸產品的精準行銷 176
9.3.1 案例背景 176
9.3.2 數據準備 176
9.3.3 數據預處理 180
9.3.4 建模 182
9.3.5 模型評估 185
9.4 預測模型的套用與評估 189
9.5 本章小結 189
第10章 決策樹類算法,反欺詐
模型“專家” 191
10.1 決策樹,重要的分類器 191
10.2 決策樹的關鍵思想 192
10.2.1 理財客戶畫像案例背景 192
10.2.2 關鍵思想一:遞歸劃分 194
10.2.3 關鍵思想二:剪枝 197
10.3 案例:電商盜卡交易風險識別 198
10.3.1 案例背景 198
10.3.2 以SAS實現 199
10.3.3 以Clementine實現 201
10.3.4 以R實現 204
10.4 隨機森林 208
10.5 本章小結 209
第11章 數據可視化,是分析更是
設計 210
11.1 數據演示之道 210
11.1.1 好“色”之圖 211
11.1.2 版式有形 212
11.1.3 數據發聲 214
11.2 個性化地圖 215
11.2.1 案例背景:存款增長率指標展示 215
11.2.2 獲取地理位置的經緯度數據 216
11.2.3 定製地圖背景和圖示 217
11.2.4 生成地圖 220
11.3 文本分析 222
11.3.1 案例:電商的客戶評價分析 222
11.3.2 分詞 223
11.3.3 詞雲製作 224
11.3.4 情感分析 225
11.4 本章小結 227
第三部分 應 用 篇
第12章 標籤系統 231
12.1 認識標籤系統 231
12.2 標籤系統的設計 233
12.2.1 標籤系統的層次結構 233
12.2.2 標籤系統的更新規則 233
12.2.3 機器學習模型轉化為標籤 235
12.3 標籤系統的實現 236
12.3.1 標籤映射表 237
12.3.2 標籤系統的前端實現 238
12.3.3 標籤系統的數據後端實現 238
12.3.4 標籤系統的線上接口實現 242
12.4 本章小結 242
第13章 數據自助行銷平台 244
13.1 數據自助行銷平台的價值所在 245
13.1.1 自動化行銷,提升工作效率 245
13.1.2 降低行銷成本,提升用戶體驗 247
13.1.3 個性化行銷,提升回響率 248
13.1.4 統一管理,便於效果追蹤 249
13.2 數據自助行銷平台的實現原則 249
13.2.1 數據行銷活動的節點 249
13.2.2 數據自助行銷平台的基礎:標籤系統 251
13.2.3 數據自助行銷平台的批量任務 252
13.2.4 實時數據行銷 254
13.3 數據自助行銷平台的場景實例 254
13.3.1 客戶生命周期管理 254
13.3.2 用卡激勵計畫 257
13.4 本章小結 260
第14章 基於Mahout的個性化推薦系統 261
14.1 Mahout的推薦引擎 262
14.1.1 Mahout的安裝配置 262
14.1.2 Mahout的使用方式 263
14.1.3 協同過濾算法 264
14.1.4 Mahout的推薦引擎 265
14.2 規模與效率 268
14.2.1 Mahout推薦算法的適用範圍 268
14.2.2 通過分散式解決規模和效率的問題 270
14.3 實現一個推薦系統 275
14.3.1 系統框架 275
14.3.2 推薦系統的刷新 276
14.3.3 部署一個可用的推薦系統 276
14.4 本章小結 280
第15章 圖計算與社會網路 281
15.1 社會網路和屬性圖 282
15.2 Spark GraphX與Neo4j 283
15.2.1 Scala程式語言 284
15.2.2 Cypher查詢語言 285
15.3 使用Spark GraphX和Neo4j處理社會網路 286
15.3.1 背景說明 286
15.3.2 數據準備 286
15.3.3 Spark GraphX處理原始網路 287
15.3.4 Neo4j互動式查詢分析 291
15.3.5 更多的套用場景 295
15.4 本章小結 296