內容簡介
本書由認識篇、技術篇和案例篇三部分組成,以商業領域中的問題為背景,主要講解數據挖掘技術的套用。認識篇介紹數據挖掘的各種技術和數據挖掘建模方法,可使讀者了解數據挖掘技術在商業領域中的套用概貌;技術篇介紹數據挖掘中的聚類分析、分類分析、關聯規則分析、離群點檢測、回歸分析等方法;案例篇介紹實際領域套用較多的RFM分析、社會網路分析和文本挖掘,展示數據挖掘在不同領域中的套用案例,使讀者理解如何套用數據挖掘技術解決商業領域中的問題。 本書可作為經濟、管理類等相關專業學生學習數據挖掘技術的教材或參考書,也可作為計算機相關專業學生學習數據挖掘技術的參考書,還可作為企事業單位管理者、數據分析人員、市場行銷人員、研究與開發人員的參考資料。
圖書目錄
目錄
上篇 認識篇
第1章 緒論 3
1.1 引例 3
1.2 數據挖掘簡介 5
1.2.1 數據挖掘技術的使用背景 5
1.2.2 數據挖掘的概念 7
1.2.3 數據挖掘任務 7
1.2.4 數據挖掘過程 9
1.2.5 數據挖掘技術的前景 9
1.2.6 數據挖掘十大經典算法 11
1.3 數據挖掘在商業領域中的套用 12
1.3.1 客戶關係管理 13
1.3.2 市場行銷 15
1.3.3 個性化推薦與個性化服務 17
1.3.4 信用評估與欺詐檢測 19
1.3.5 供應鏈庫存管理中的需求預測 21
1.3.6 人力資源管理 22
1.4 數據挖掘與隱私保護 23
1.5 數據挖掘工具及其選擇 25
本章小結 25
習題1 26
案例分析:聚類城鎮 26
第2章 數據挖掘建模方法 28
2.1 數據挖掘建模概述 28
2.2 業務理解 31
2.3 數據理解 31
2.4 數據準備 32
2.5 建模 35
2.5.1 成功建立預測模型的注意事項 35
2.5.2 如何建立有效的預測模型 37
2.6 評估 39
2.7 部署 40
2.8 辛普森悖論 41
本章小結 42
習題2 43
案例分析 43
中篇 技術篇
第3章 數據準備 49
3.1 數據探索 50
3.1.1 描述性統計分析 51
3.1.2 數據可視化 54
3.2 數據清理 55
3.3 數據集成 58
3.4 數據變換 59
3.5 數據歸約 64
3.6 Clementine簡介 67
3.6.1 Clementine數據流操作 68
3.6.2 輸入、輸出節點 71
3.6.3 數據可視化節點 78
3.6.4 數據預處理節點 82
3.7 綜合案例:電信客戶通話模式分析 86
本章小結 92
習題3 92
案例分析 93
第4章 聚類分析 95
4.1 聚類分析概述 95
4.2 相似性度量 96
4.2.1 數據及數據類型 96
4.2.2 屬性之間的相似性度量 98
4.2.3 對象之間的相似性度量 99
4.3 k-Means算法及其改進 104
4.3.1 k -Means算法 104
4.3.2 k-Means算法的拓展 106
4.4 DBSCAN聚類算法 112
4.5 一趟聚類算法 115
4.5.1 算法描述 115
4.5.2 聚類閾值的選擇策略 115
4.5.3 一趟聚類算法的套用 117
4.6 層次聚類算法 118
4.6.1 概述 118
4.6.2 二分k -Means算法 119
4.6.3 BIRCH算法 119
4.6.4 兩步聚類算法 121
4.7 SOM算法 123
4.7.1 SOM算法中網路的拓撲結構 124
4.7.2 SOM算法的聚類原理 125
4.8 聚類算法評價 126
4.8.1 有監督度量 126
4.8.2 無監督度量 127
4.9 Clementine中相關節點的介紹 128
4.9.1 k -Means節點 128
4.9.2 兩步節點 130
4.9.3 Kohonen節點 130
4.10 綜合案例:超市客戶細分 132
本章小結 134
習題4 135
案例分析 135
第5章 分類分析 137
5.1 分類概述 138
5.2 決策樹分類方法 138
5.2.1 決策樹的基本概念 138
5.2.2 決策樹的構建 140
5.2.3 Hunt算法 144
5.2.4 C4.5分類算法 145
5.2.5 CART算法 148
5.2.6 C4.5與CART算法的主要區別 156
5.2.7 決策樹分類算法的特點 156
5.3 貝葉斯分類方法 156
5.3.1 貝葉斯定理 156
5.3.2 樸素貝葉斯分類算法 157
5.3.3 零條件機率問題的處理 158
5.3.4 樸素貝葉斯算法的優缺點 159
5.3.5 貝葉斯信念網路 161
5.4 KNN 162
5.4.1 最近鄰分類方法的基本概念 163
5.4.2 KNN算法的優缺點 163
5.4.3 KNN算法的擴展 163
5.5 集成分類方法 164
5.5.1 集成分類方法的過程描述 164
5.5.2 構建集成分類器的方法 165
5.5.3 隨機森林 166
5.5.4 集成分類方法的優缺點 168
5.6 分類方法評價 168
5.6.1 分類模型性能評價指標 168
5.6.2 分類模型性能評價應注意的點 169
5.6.3 評估分類模型性能的方法 170
5.7 Clementine中相關節點的介紹 171
5.7.1 C5.0節點 171
5.7.2 CRT節點 173
5.7.3 貝葉斯節點 174
5.7.4 集成節點 177
5.7.5 分析節點 177
5.7.6 評估節點 179
5.8 綜合案例 183
5.8.1 案例5-1:銀行客戶信用風險評估 183
5.8.2 案例5-2:離職員工預測 185
本章小結 188
習題5 188
案例分析 190
第6章 關聯規則分析 191
6.1 關聯規則分析概述 191
6.2 關聯規則分析基礎 192
6.2.1 基本概念 192
6.2.2 基礎分析方法 193
6.3 Apriori算法 195
6.3.1 Apriori性質 195
6.3.2 產生頻繁項集 196
6.3.3 頻繁項集構造示例 197
6.3.4 產生關聯規則 198
6.3.5 規則的評估標準 201
6.3.6 Apriori算法評價 203
6.4 FP-Growth算法 203
6.4.1 FP-Tree表示法 204
6.4.2 構建FP-Tree 204
6.4.3 發現頻繁項集 207
6.5 關聯規則擴展 208
6.5.1 關聯規則分類 208
6.5.2 多層次關聯規則 209
6.5.3 多維關聯規則 210
6.5.4 定量關聯規則 211
6.5.5 基於約束的關聯規則 211
6.5.6 序列模式挖掘 211
6.6 Clementine中Apriori節點的介紹 212
6.7 綜合案例 213
6.7.1 案例6-1:超市購物籃分析 213
6.7.2 案例6-2:移動業務關聯分析 218
本章小結 225
習題6 226
案例分析 227
第7章 離群點檢測 229
7.1 離群點概述 229
7.2 基於距離的離群點檢測方法 231
7.3 基於相對密度的離群點檢測方法 232
7.4 基於聚類的離群點檢測方法 237
7.4.1 基於對象的離群因子檢測方法 238
7.4.2 基於簇的離群因子檢測方法 240
7.4.3 基於聚類的動態數據離群點檢測 242
7.5 離群點檢測方法的評估 243
7.6 Clementine中的異常節點 243
7.7 綜合案例:信用卡欺詐檢測 245
本章小結 246
習題7 246
案例分析 247
第8章 回歸分析 248
8.1 回歸分析概述 248
8.2 線性回歸模型 249
8.2.1 多元線性回歸模型的表示 249
8.2.2 多元線性回歸模型的檢驗 250
8.3 非線性回歸 252
8.4 邏輯回歸 255
8.4.1 二元邏輯回歸模型 255
8.4.2 邏輯回歸模型的係數估計 256
8.4.3 邏輯回歸模型係數的解釋 257
8.4.4 顯著性檢驗 257
8.4.5 回歸方程的擬合優度檢驗 258
8.5 Clementine中相關節點介紹 263
8.5.1 線性回歸節點 263
8.5.2 邏輯回歸節點 264
8.6 綜合案例:我國私人汽車擁有量的非線性回歸 265
本章小結 268
習題8 268
案例分析 270
下篇 案例篇
第9章 RFM分析 275
9.1 RFM分析的基本原理 275
9.2 RFM模型的套用場景 276
9.3 Clementine中相關節點介紹 277
9.3.1 RFM匯總節點 277
9.3.2 RFM分析節點 278
9.4 綜合案例 280
9.4.1 案例9-1:識別促銷的目標客戶 280
9.4.2 案例9-2:Charles讀書俱樂部目錄銷售 285
9.4.3 案例9-3:銷售數據分析 290
本章小結 294
第10章 社會網路分析 295
10.1 圖論基礎 295
10.2 社會網路分析概述 296
10.2.1 社會網路分析相關概念 297
10.2.2 中心性 297
10.2.3 權威性 299
10.2.4 網路密度 299
10.3 社區檢測 300
10.3.1 社區檢測方法簡介 300
10.3.2 社區檢測質量評價 301
10.4 社會網路分析軟體 302
10.4.1 社會網路分析軟體概述 302
10.4.2 Gephi簡介 303
10.5 綜合案例 306
10.5.1 案例10-1:基於社區檢測的通信業客戶細分 306
10.5.2 案例10-2:“一帶一路”沿線國家間貿易數據分析 311
本章小結 318
第11章 文本挖掘 319
11.1 分詞技術 319
11.1.1 分詞挑戰 319
11.1.2 分詞方法 320
11.1.3 常見分詞工具 321
11.2 文本向量化 322
11.2.1 向量空間模型 322
11.2.2 文本特徵選擇 323
11.3 文本聚類 324
11.3.1 文本相似度計算 324
11.3.2 文本聚類過程 325
11.4 文本分類 325
11.4.1 文本分類的概念 325
11.4.2 常用文本分類算法 326
11.4.3 常用基準語料與模型評估標準 327
11.5 文本情感分析 328
11.5.1 文本情感分析的概念 329
11.5.2 文本情感分析技術 329
11.5.3 文本情感分析的套用 330
11.6 相關軟體 331
11.6.1 數據採集工具八爪魚 331
11.6.2 可視化內容挖掘軟體ROST CM6 336
11.7 綜合案例:基於微博的用戶特徵識別 337
本章小結 342
第12章 數據挖掘在客戶關係管理中的套用 343
12.1 客戶關係管理 343
12.1.1 客戶關係管理概述 343
12.1.2 客戶價值分析 344
12.1.3 客戶細分分析 345
12.1.4 市場行銷 345
12.1.5 客戶關係管理的實施流程 346
12.2 客戶生命周期分析 347
12.3 綜合案例 350
12.3.1 案例12-1:旅遊公司目錄銷售 350
12.3.2 案例12-2:電信客戶細分與流失分析 354
12.3.3 案例12-3:航空公司客戶價值分析 359
本章小結 365
第13章 數據挖掘在金融領域的套用 366
13.1 金融科技概述 366
13.2 數據挖掘在銀行業中的套用概述 369
13.3 綜合案例:信用風險分析 372
本章小結 377
第14章 數據挖掘在財務風險分析和預警中的套用 378
14.1 數據挖掘在財務風險管理中的套用概述 378
14.2 綜合案例 380
14.2.1 案例14-1:上市公司財務報表舞弊識別 380
14.2.2 案例14-2:上市公司財務困境預警 382
本章小結 386
第15章 數據挖掘在電子商務中的套用 387
15.1 數據挖掘在電子商務中的套用概述 387
15.2 主要套用領域 388
15.2.1 網路客戶關係管理 388
15.2.2 網站設計最佳化 390
15.2.3 推薦系統 391
15.3 綜合案例 396
15.3.1 案例15-1:基於關聯分析的淘寶網推薦 396
15.3.2 案例15-2 電商客戶流失預警 398
本章小結 403
附錄A 數據挖掘常用資源列表 404
參考文獻 406
作者簡介
蔣盛益,教授、博士,碩士生導師;廣東省"千百十"工程省級培養對象,廣東外語外貿大學教學名師。中國計算機學會高級會員,中國計算機學會中文信息技術專委會委員,中國中文信息學會計算語言學專業委員會委員、社會媒體處理專委會委員,人工智慧學會機器學習專委會委員,廣東省計算機學會常務理事;廣州市計算機學會常務理事;第十、十一屆廣東省政協委員。先後在湖南師範大學、中南工業大學、華中科技大學畢業,分別獲理學學士學位、理學碩士學位、工學博士學位。目前重點研究方向是利用自然語言處理、社會網路分析技術來處理網路新聞和社交媒體中的數據,包括新聞觀點自動提取、對特定事件的立場(支持還是反對)分析、輿情傳播模式研究、用戶影響力分析等。套用背景包括國內外輿情分析、海上絲綢之路的情報分析。