內容簡介
數據挖掘是大數據分析中最活躍的地帶。SPSS Modeler充分利用計算機系統的運算處理能力和圖形展現能力,將數據挖掘方法、套用與工具有機地融為一體,成為內容全面、功能強大、操作友好的數據挖掘軟體產品,是大數據分析的理想工具。本書以數據挖掘的實踐過程為主線,系統介紹了決策樹、
人工神經網路、
支持向量機、
Logistic回歸、判別分析、
貝葉斯網路、聚類分析等一系列經典數據挖掘方法,以及數據整理和降維處理等必備知識,同時給出了SPSS Modeler實現的全過程。講解方法從易到難,說明問題由淺入深,軟體操作詳細全面。本書力求以最通俗的方式闡述數據挖掘方法的核心思想與基本原理,同時配合SPSS Modeler 18(中文版)軟體操作說明,希望讀者能夠直觀理解方法的本質,快速掌握軟體使用技巧,並套用到數據挖掘實踐中。本書可作為高等院校管理類、財經類、計算機類專業本科生和研究生的數據挖掘教材,也可作為商業管理、金融保險、社會教育等行業進行數據挖掘實踐的參考用書。
圖書目錄
目 錄
第1章 數據挖掘和SPSS Modeler使用概述1
1.1 數據挖掘的產生背景1
1.1.1 海量大數據的分析需求催生數據挖掘1
1.1.2 套用對理論的挑戰催生數據挖掘2
1.2 什麼是數據挖掘4
1.2.1 數據挖掘和資料庫中的知識發現5
1.2.2 數據挖掘方法論6
1.2.3 數據挖掘的任務和套用9
1.2.4 數據挖掘得到的知識形式11
1.2.5 數據挖掘算法的分類14
1.3 SPSS Modeler軟體概述17
1.3.1 SPSS Modeler的數據流17
1.3.2 SPSS Modeler的視窗19
1.3.3 數據流的基本管理21
1.3.4 快取節點和超節點24
1.3.5 從一個示例看SPSS Modeler的使用25
第2章 SPSS Modeler的數據讀入和數據集成31
2.1 變數類型31
2.1.1 從數據挖掘角度看變數類型31
2.1.2 從計算機存儲角度看變數類型32
2.2 讀入數據32
2.2.1 讀自由格式的文本檔案33
2.2.2 讀Excel電子表格數據36
2.2.3 讀SPSS格式檔案37
2.3 數據集成38
2.3.1 數據的縱向合併38
2.3.2 數據的橫向合併40
2.3.3 數據源替換43
第3章 SPSS Modeler的數據理解45
3.1 變數說明45
3.1.1 變數的重新實例化46
3.1.2 有效變數值和無效值調整47
3.1.3 變數角色的說明49
3.2 數據質量的評估和調整50
3.2.1 數據的基本特徵與質量評價報告50
3.2.2 變數值的調整53
3.2.3 數據質量管理56
3.3 數據的排序58
3.3.1 單變數排序58
3.3.2 多重排序59
3.4 數據的分類匯總60
3.4.1 單變數分類匯總60
3.4.2 多重分類匯總61
第4章 SPSS Modeler的數據準備62
4.1 變數變換62
4.1.1 CLEM表達式62
4.1.2 變數值的重新計算65
4.1.3 變數類別值的調整67
4.2 變數派生68
4.2.1 生成新變數68
4.2.2 生成服從常態分配的新變數72
4.2.3 派生啞變數75
4.3 數據精簡76
4.3.1 隨機抽樣76
4.3.2 根據條件選取樣本79
4.4 建模中的數據集處理策略80
4.4.1 樣本的平衡處理80
4.4.2 樣本子集的劃分81
第5章 SPSS Modeler的基本分析85
5.1.1 計算基本描述統計量85
5.1.2 繪製散點圖88
5.1.3 繪製線圖91
5.2 兩分類型變數相關性的研究93
5.2.1 兩分類型變數相關性的圖形分析93
5.2.2 兩分類型變數相關性的數值分析98
5.3 兩總體的均值比較102
5.3.1 兩總體均值比較的圖形分析102
5.3.2 獨立樣本的均值檢驗104
5.3.3 配對樣本的均值檢驗108
5.4 RFM分析110
5.4.1 什麼是RFM分析110
5.4.2 RFM匯總110
5.4.3 計算RFM得分112
第6章 SPSS Modeler的數據精簡115
6.1 變數值的離散化處理115
6.1.1 無監督的數據分組115
6.1.2 有監督的數據分組116
6.1.3 變數值離散化處理的套用示例119
6.2 特徵選擇122
6.2.1 特徵選擇的一般方法123
6.2.2 特徵選擇的套用示例124
6.3 因子分析128
6.3.1 什麼是因子分析128
6.3.2 因子提取和因子載荷矩陣的求解131
6.3.3 因子的命名解釋134
6.3.4 計算因子得分135
6.3.5 因子分析的套用示例136
第7章 分類預測:SPSS Modeler的決策樹141
7.1.1 什麼是決策樹141
7.1.2 決策樹的幾何理解143
7.1.3 決策樹的核心問題143
7.2 SPSS Modeler的C5.0算法及其套用146
7.2.1 信息熵和信息增益146
7.2.2 C5.0決策樹的生長算法147
7.2.3 C5.0決策樹的剪枝算法152
7.2.4 C5.0決策樹的基本套用示例154
7.2.5 C5.0的推理規則集158
7.2.6 損失矩陣163
7.2.7 N折交叉驗證和Boosting技術165
7.3 SPSS Modeler的分類回歸樹及其套用169
7.3.1 分類回歸樹的生長過程169
7.3.2 分類回歸樹的剪枝過程171
7.3.3 損失矩陣對分類回歸樹的影響174
7.3.4 分類回歸樹的基本套用示例174
7.3.5 分類回歸樹的互動建模178
7.3.6 互動建模中分類回歸樹的評價180
7.4 SPSS Modeler的CHAID算法及其套用185
7.4.1 CHAID算法185
7.4.2 窮舉CHAID算法186
7.4.3 CHAID算法的剪枝187
7.4.4 CHAID算法的套用示例187
7.5 SPSS Modeler的QUEST算法及其套用189
7.5.1 QUEST算法189
7.5.2 QUEST算法的套用示例191
7.6 模型的對比分析192
7.6.1 不同模型的誤差對比192
7.6.2 不同模型的收益對比195
第8章 分類預測:SPSS Modeler的人工神經網路198
8.1 人工神經網路算法概述198
8.1.1 人工神經網路的概念和種類198
8.1.2 人工神經網路中的節點和意義200
8.1.3 人工神經網路建立的一般步驟202
8.2 SPSS Modeler的B-P反向傳播網路204
8.2.1 感知機模型204
8.2.2 B-P反向傳播網路的特點207
8.2.4 B-P反向傳播網路的其他問題212
8.3 SPSS Modeler的B-P反向傳播網路的套用214
8.3.1 基本操作215
8.3.2 結果說明215
8.4.1 徑向基函式網路中的隱節點和輸出節點217
8.4.2 徑向基函式網路的學習過程217
8.4.3 徑向基函式網路的套用示例219
第9章 分類預測:SPSS Modeler的支持向量機221
9.1 支持向量分類的基本思路221
9.1.1 支持向量分類的數據和目標221
9.1.2 支持向量分類的三種情況223
9.2 線性可分問題下的支持向量分類224
9.2.1 如何求解超平面224
9.2.2 如何利用超平面進行分類預測226
9.3 廣義線性可分下的支持向量分類227
9.3.1 如何求解超平面227
9.3.2 可調參數的意義:把握程度和精度的權衡228
9.4 線性不可分下的支持向量分類229
9.4.1 線性不可分的一般解決途徑和維災難問題229
9.4.2 支持向量分類克服維災難的途徑230
9.5 支持向量回歸232
9.5.1 支持向量回歸與一般線性回歸:目標和策略232
9.5.2 支持向量回歸的基本思路233
9.6 支持向量機的套用235
9.6.1 基本操作235
9.6.2 結果解讀236
第10章 分類預測:SPSS Modeler的Logistic回歸分析238
10.1 Logistic回歸分析概述238
10.2 二項Logistic回歸分析239
10.2.1 二項Logistic回歸方程239
10.2.2 二項Logistic回歸方程係數的含義241
10.2.3 二項Logistic回歸方程的檢驗242
10.2.4 二項Logistic回歸分析中的虛擬自變數246
10.3 二項Logistic回歸分析的套用246
10.3.1 基本操作247
10.3.2 結果解讀249
10.4 多項Logistic回歸分析及其套用257
10.4.1 多項Logistic回歸分析概述257
10.4.2 多項Logistic回歸分析的套用示例257
第11章 分類預測:SPSS Modeler的判別分析262
11.1 距離判別262
11.1.1 距離判別的基本思路262
11.1.2 判別函式的計算263
11.2 Fisher判別264
11.2.1 Fisher判別的基本思路264
11.2.2 Fisher判別的計算266
11.3 貝葉斯判別267
11.3.1 貝葉斯判別的基本思路267
11.3.2 貝葉斯判別的計算267
11.4 判別分析的套用268
11.4.1 基本操作268
11.4.2 判別分析的準備工作269
11.4.3 結果解讀273
第12章 分類預測:SPSS Modeler的貝葉斯網路279
12.1 貝葉斯方法基礎279
12.1.2 樸素貝葉斯分類法280
12.2 貝葉斯網路概述282
12.2.1 什麼是貝葉斯網路282
12.2.2 貝葉斯網路的組成及構建283
12.2.3 貝葉斯網路的分類預測284
12.3 TAN貝葉斯網路285
12.3.1 TAN貝葉斯網路的結構285
12.3.2 TAN貝葉斯網路結構的學習286
12.3.3 TAN貝葉斯網路的參數估計288
12.4 馬爾科夫毯網路290
12.4.1 馬爾科夫毯網路的基本概念290
12.4.2 條件獨立檢驗291
12.4.3 馬爾科夫毯網路結構的學習292
12.4.4 馬爾科夫毯網路的分類預測293
12.5 貝葉斯網路的套用293
12.5.1 基本操作293
12.5.2 結果解讀295
第13章 探索內部結構:SPSS Modeler的關聯分析299
13.1 簡單關聯規則及其有效性299
13.1.1 簡單關聯規則的基本概念299
13.1.2 簡單關聯規則的有效性和實用性301
13.2 SPSS Modeler的Apriori算法及其套用305
13.2.2 依據頻繁項集產生簡單關聯規則307
13.2.3 Apriori算法的套用示例307
13.3 SPSS Modeler的序列關聯及其套用312
13.3.1 序列關聯中的基本概念312
13.3.2 Sequence算法313
13.3.3 序列關聯的時間約束316
13.3.4 Sequence算法的套用示例317
第14章 探索內部結構:SPSS Modeler的聚類分析320
14.1 聚類分析的一般問題320
14.1.1 聚類分析的提出320
14.1.2 聚類算法320
14.2 SPSS Modeler的K-Means聚類及套用321
14.2.1 K-Means對“親疏程度”的測度321
14.2.2 K-Means聚類過程321
14.2.3 K-Means聚類的套用示例324
14.3 SPSS Modeler的兩步聚類及其套用327
14.3.1 兩步聚類對“親疏程度”的測度328
14.3.2 兩步聚類過程328
14.3.3 聚類數目的確定330
14.3.4 兩步聚類的套用示例332
14.4 SPSS Modeler的Kohonen網路聚類及其套用333
14.4.1 Kohonen網路聚類機理333
14.4.2 Kohonen網路聚類過程335
14.4.3 Kohonen網路聚類的套用示例337
14.5 基於聚類分析的離群點探索342
14.5.1 多維空間基於聚類的離群點診斷方法343
14.5.2 多維空間基於聚類的離群點診斷套用示例345