內容簡介
數據挖掘是大數據分析中最活躍的地帶。SPSS Modeler充分利用計算機系統的運算處理能力和圖形展現能力,將數據挖掘方法、套用與工具有機地融為一體,成為內容全面、功能強大、操作友好的數據挖掘軟體產品,是大數據分析的理想工具。本書以數據挖掘的實踐過程為主線,系統介紹了決策樹、人工神經網路、支持向量機、Logistic回歸、判別分析、貝葉斯網路、聚類分析等一系列經典數據挖掘方法,以及數據整理和降維處理等必備知識,同時給出了SPSS Modeler實現的全過程。講解方法從易到難,說明問題由淺入深,軟體操作詳細全面。本書力求以最通俗的方式闡述數據挖掘方法的核心思想與基本原理,同時配合SPSS Modeler 18(中文版)軟體操作說明,希望讀者能夠直觀理解方法的本質,快速掌握軟體使用技巧,並套用到數據挖掘實踐中。本書提供實例數據和電子課件,讀者可登錄華信教育資源網免費下載使用。本書可作為高等院校管理類、財經類、計算機類專業本科生和研究生的數據挖掘教材,也可作為商業管理、金融保險、社會教育等行業進行數據挖掘實踐的參考用書。
圖書目錄
目 錄
第1章 數據挖掘和SPSS Modeler使用概述 1
1.1 數據挖掘的產生背景 1
1.1.1 海量大數據的分析需求催生數據挖掘 1
1.1.2 套用對理論的挑戰催生數據挖掘 2
1.2 什麼是數據挖掘 4
1.2.1 數據挖掘和資料庫中的知識發現 5
1.2.2 數據挖掘方法論 6
1.2.3 數據挖掘的任務和套用 9
1.2.4 數據挖掘得到的知識形式 11
1.2.5 數據挖掘算法的分類 14
1.3 SPSS Modeler軟體概述 17
1.3.1 SPSS Modeler的數據流 17
1.3.2 SPSS Modeler的視窗 19
1.3.3 數據流的基本管理 21
1.3.4 快取節點和超節點 24
1.3.5 從一個示例看SPSS Modeler的使用 25
第2章 SPSS Modeler的數據讀入和數據集成 31
2.1 變數類型 31
2.1.1 從數據挖掘角度看變數類型 31
2.1.2 從計算機存儲角度看變數類型 32
2.2 讀入數據 32
2.2.1 讀自由格式的文本檔案 33
2.2.2 讀Excel電子表格數據 36
2.2.3 讀SPSS格式檔案 37
2.3 數據集成 38
2.3.1 數據的縱向合併 38
2.3.2 數據的橫向合併 40
2.3.3 數據源替換 43
第3章 SPSS Modeler的數據理解 45
3.1 變數說明 45
3.1.1 變數的重新實例化 46
3.1.2 有效變數值和無效值調整 47
3.1.3 變數角色的說明 49
3.2 數據質量的評估和調整 50
3.2.1 數據的基本特徵與質量評價報告 50
3.2.2 變數值的調整 53
3.2.3 數據質量管理 56
3.3 數據的排序 58
3.3.1 單變數排序 58
3.3.2 多重排序 59
3.4 數據的分類匯總 60
3.4.1 單變數分類匯總 60
3.4.2 多重分類匯總 61
第4章 SPSS Modeler的數據準備 62
4.1 變數變換 62
4.1.1 CLEM表達式 62
4.1.2 變數值的重新計算 65
4.1.3 變數類別值的調整 67
4.2 變數派生 68
4.2.1 生成新變數 68
4.2.2 生成服從常態分配的新變數 72
4.2.3 派生啞變數 75
4.3 數據精簡 76
4.3.1 隨機抽樣 76
4.3.2 根據條件選取樣本 79
4.4 建模中的數據集處理策略 80
4.4.1 樣本的平衡處理 80
4.4.2 樣本子集的劃分 81
第5章 SPSS Modeler的基本分析 85
5.1 數值型變數的基本分析 85
5.1.1 計算基本描述統計量 85
5.1.2 繪製散點圖 88
5.1.3 繪製線圖 91
5.2 兩分類型變數相關性的研究 93
5.2.1 兩分類型變數相關性的圖形分析 93
5.2.2 兩分類型變數相關性的數值分析 98
5.3 兩總體的均值比較 102
5.3.1 兩總體均值比較的圖形分析 102
5.3.2 獨立樣本的均值檢驗 104
5.3.3 配對樣本的均值檢驗 108
5.4 RFM分析 110
5.4.1 什麼是RFM分析 110
5.4.2 RFM匯總 110
5.4.3 計算RFM得分 112
第6章 SPSS Modeler的數據精簡 115
6.1 變數值的離散化處理 115
6.1.1 無監督的數據分組 115
6.1.2 有監督的數據分組 116
6.1.3 變數值離散化處理的套用示例 119
6.2 特徵選擇 122
6.2.1 特徵選擇的一般方法 123
6.2.2 特徵選擇的套用示例 124
6.3 因子分析 128
6.3.1 什麼是因子分析 128
6.3.2 因子提取和因子載荷矩陣的求解 131
6.3.3 因子的命名解釋 134
6.3.4 計算因子得分 135
6.3.5 因子分析的套用示例 136
第7章 分類預測:SPSS Modeler的決策樹 141
7.1 決策樹算法概述 141
7.1.1 什麼是決策樹 141
7.1.2 決策樹的幾何理解 143
7.1.3 決策樹的核心問題 143
7.2 SPSS Modeler的C5.0算法及其套用 146
7.2.1 信息熵和信息增益 146
7.2.2 C5.0決策樹的生長算法 147
7.2.3 C5.0決策樹的剪枝算法 152
7.2.4 C5.0決策樹的基本套用示例 154
7.2.5 C5.0的推理規則集 158
7.2.6 損失矩陣 163
7.2.7 N折交叉驗證和Boosting技術 165
7.3 SPSS Modeler的分類回歸樹及其套用 169
7.3.1 分類回歸樹的生長過程 169
7.3.2 分類回歸樹的剪枝過程 171
7.3.3 損失矩陣對分類回歸樹的影響 174
7.3.4 分類回歸樹的基本套用示例 174
7.3.5 分類回歸樹的互動建模 178
7.3.6 互動建模中分類回歸樹的評價 180
7.4 SPSS Modeler的CHAID算法及其套用 185
7.4.1 CHAID算法 185
7.4.2 窮舉CHAID算法 186
7.4.3 CHAID算法的剪枝 187
7.4.4 CHAID算法的套用示例 187
7.5 SPSS Modeler的QUEST算法及其套用 189
7.5.1 QUEST算法 189
7.5.2 QUEST算法的套用示例 191
7.6 模型的對比分析 192
7.6.1 不同模型的誤差對比 192
7.6.2 不同模型的收益對比 195
第8章 分類預測:SPSS Modeler的人工神經網路 198
8.1 人工神經網路算法概述 198
8.1.1 人工神經網路的概念和種類 198
8.1.2 人工神經網路中的節點和意義 200
8.1.3 人工神經網路建立的一般步驟 202
8.2 SPSS Modeler的B-P反向傳播網路 204
8.2.1 感知機模型 204
8.2.2 B-P反向傳播網路的特點 207
8.2.3 B-P反向傳播算法 209
8.2.4 B-P反向傳播網路的其他問題 212
8.3 SPSS Modeler的B-P反向傳播網路的套用 214
8.3.1 基本操作 215
8.3.2 結果說明 215
8.4 SPSS Modeler的徑向基函式網路及其套用 216
8.4.1 徑向基函式網路中的隱節點和輸出節點 217
8.4.2 徑向基函式網路的學習過程 217
8.4.3 徑向基函式網路的套用示例 219
第9章 分類預測:SPSS Modeler的支持向量機 221
9.1 支持向量分類的基本思路 221
9.1.1 支持向量分類的數據和目標 221
9.1.2 支持向量分類的三種情況 223
9.2 線性可分問題下的支持向量分類 224
9.2.1 如何求解超平面 224
9.2.2 如何利用超平面進行分類預測 226
9.3 廣義線性可分下的支持向量分類 227
9.3.1 如何求解超平面 227
9.3.2 可調參數的意義:把握程度和精度的權衡 228
9.4 線性不可分下的支持向量分類 229
9.4.1 線性不可分的一般解決途徑和維災難問題 229
9.4.2 支持向量分類克服維災難的途徑 230
9.5 支持向量回歸 232
9.5.1 支持向量回歸與一般線性回歸:目標和策略 232
9.5.2 支持向量回歸的基本思路 233
9.6 支持向量機的套用 235
9.6.1 基本操作 235
9.6.2 結果解讀 236
第10章 分類預測:SPSS Modeler的Logistic回歸分析 238
10.1 Logistic回歸分析概述 238
10.2 二項Logistic回歸分析 239
10.2.1 二項Logistic回歸方程 239
10.2.2 二項Logistic回歸方程係數的含義 241
10.2.3 二項Logistic回歸方程的檢驗 242
10.2.4 二項Logistic回歸分析中的虛擬自變數 246
10.3 二項Logistic回歸分析的套用 246
10.3.1 基本操作 247
10.3.2 結果解讀 249
10.4 多項Logistic回歸分析及其套用 257
10.4.1 多項Logistic回歸分析概述 257
10.4.2 多項Logistic回歸分析的套用示例 257
第11章 分類預測:SPSS Modeler的判別分析 262
11.1 距離判別 262
11.1.1 距離判別的基本思路 262
11.1.2 判別函式的計算 263
11.2 Fisher判別 264
11.2.1 Fisher判別的基本思路 264
11.2.2 Fisher判別的計算 266
11.3 貝葉斯判別 267
11.3.1 貝葉斯判別的基本思路 267
11.3.2 貝葉斯判別的計算 267
11.4 判別分析的套用 268
11.4.1 基本操作 268
11.4.2 判別分析的準備工作 269
11.4.3 結果解讀 273
第12章 分類預測:SPSS Modeler的貝葉斯網路 279
12.1 貝葉斯方法基礎 279
12.1.1 貝葉斯機率和貝葉斯公式 279
12.1.2 樸素貝葉斯分類法 280
12.2 貝葉斯網路概述 282
12.2.1 什麼是貝葉斯網路 282
12.2.2 貝葉斯網路的組成及構建 283
12.2.3 貝葉斯網路的分類預測 284
12.3 TAN貝葉斯網路 285
12.3.1 TAN貝葉斯網路的結構 285
12.3.2 TAN貝葉斯網路結構的學習 286
12.3.3 TAN貝葉斯網路的參數估計 288
12.4 馬爾科夫毯網路 290
12.4.1 馬爾科夫毯網路的基本概念 290
12.4.2 條件獨立檢驗 291
12.4.3 馬爾科夫毯網路結構的學習 292
12.4.4 馬爾科夫毯網路的分類預測 293
12.5 貝葉斯網路的套用 293
12.5.1 基本操作 293
12.5.2 結果解讀 295
第13章 探索內部結構:SPSS Modeler的關聯分析 299
13.1 簡單關聯規則及其有效性 299
13.1.1 簡單關聯規則的基本概念 299
13.1.2 簡單關聯規則的有效性和實用性 301
13.2 SPSS Modeler的Apriori算法及其套用 305
13.2.1 產生頻繁項集 305
13.2.2 依據頻繁項集產生簡單關聯規則 307
13.2.3 Apriori算法的套用示例 307
13.3 SPSS Modeler的序列關聯及其套用 312
13.3.1 序列關聯中的基本概念 312
13.3.2 Sequence算法 313
13.3.3 序列關聯的時間約束 316
13.3.4 Sequence算法的套用示例 317
第14章 探索內部結構:SPSS Modeler的聚類分析 320
14.1 聚類分析的一般問題 320
14.1.1 聚類分析的提出 320
14.1.2 聚類算法 320
14.2 SPSS Modeler的K-Means聚類及套用 321
14.2.1 K-Means對“親疏程度”的測度 321
14.2.2 K-Means聚類過程 321
14.2.3 K-Means聚類的套用示例 324
14.3 SPSS Modeler的兩步聚類及其套用 327
14.3.1 兩步聚類對“親疏程度”的測度 328
14.3.2 兩步聚類過程 328
14.3.3 聚類數目的確定 330
14.3.4 兩步聚類的套用示例 332
14.4 SPSS Modeler的Kohonen網路聚類及其套用 333
14.4.1 Kohonen網路聚類機理 333
14.4.2 Kohonen網路聚類過程 335
14.4.3 Kohonen網路聚類的套用示例 337
14.5 基於聚類分析的離群點探索 342
14.5.1 多維空間基於聚類的離群點診斷方法 343
14.5.2 多維空間基於聚類的離群點診斷套用示例 345