內容簡介
數據挖掘是當前數據分析領域中最活躍、最前沿的地帶。本書以數據挖掘的實踐過程為主線,通過生動的套用案例,從數據挖掘實施角度,系統介戒判籃紹了經典的數據挖掘方法和利用SPSS Modeler實現數據挖掘的全部過程,講解方法從易到難,說明問題從淺至深。本書力求以最通俗的方式闡述數據挖掘方法的核心思想與基本原理,同時配合SPSS Modeler軟體操作的說明再檔嚷龍,希望讀者能夠直觀了解方法本質,儘快掌握SPSS Modeler軟體使用,並套用到數據挖掘實踐中。書中所有數據和案例與華信教育資源網上數據資料內容一致。
圖書目錄
目 錄
第1章 數據挖掘和Clementine概述1
1.1 數據挖掘的產生背估剃承景1
1.1.1 海量數據的分析需求催生數據挖掘1
1.1.2 套用對理論的挑戰催生數據挖掘3
1.2 什麼是數據挖掘6
1.2.1 數據恥巴膠微挖掘的概念6
1.2.2 數據挖掘能做什麼8
1.2.3 數據挖掘得到的知識形式9
1.2.4 數據挖掘的算法分類11
1.3 Clementine軟體概述14
1.3.1 Clementine的視窗14
1.3.2 數據流的基本管理和執行17
1.3.3 數據流的其他管理19
1.3.4 從一個示例看Clementine的使用21
第2章 Clementine數據的讀入30
2.1 變數的類型30
2.1.1 從數據挖掘角度看變數類型30
2.1.2 從數據存儲角度看變數類型31
2.2 讀入數據31
2.2.1 讀自由格式的文本檔案32
2.2.2 讀Excel電子表格數據36
2.2.3 讀SPSS格式檔案37
2.2.4 讀資料庫檔案38
2.3 生成實驗方案數據40
2.4 合併數據42
2.4.1 數據的縱向合併42
2.4.2 數據的橫向合併44
第3章 Clementine變數的管理47
3.1 變數說明47
3.1.1 取值範圍和缺失值的說明48
3.1.2 變數取值有效性檢查和修正49
3.1.3 變數角色的說明50
3.2 變數值的重新計算51
3.2.1 CLEM表達式52
3.2.2 變數值重新計算示例55
3.3 變數類別值的調整57
3.4 生成新變數58
3.5 變數值的離散化處理62
3.5.1 常用的分箱方法62
3.5.2 變數值的離散化處理示例66
3.6 生成樣本集分割變數69
3.6.1 樣本集分割的意義和常見方法69
3.6.2 生成樣本集分割變數的示例71
第4章 Clementine樣本的管理73
4.1 樣本的排序73
4.2 樣本的條件篩選74
4.3 樣本的隨機抽樣75
4.4 樣本的濃縮處理76
4.5 樣本的分類匯總77
4.6 樣本的平衡處理78
4.7 樣本的其他管理79
4.7.1 數據轉置79
4.7.2 數據的重新組織81
第5章 Clementine數據的基本分析83
5.1 數據質量的探索84
5.1.1 數據的基本描述與質量探索84
5.1.2 離群點和極端值的修正87
5.1.3 缺失值的替補88
5.1.4 數據質全催量管理的其他功能89
5.2 基本描述分析90
5.2.1 計算基本描述統計量91
5.2.2 繪製散點圖93
5.3 變數分布的探索94
5.4 兩分類變數相關性的研究97
5.4.1 兩分類變數相關性的圖形分析97
5.4.2 兩分類變數相關性的數值分析100
5.5 兩總體的均值比較105
5.5.1 兩總體均值比較的圖形分析105
5.5.2 獨立樣本的均值檢驗107
5.5.3 配對樣本的均值檢驗111
5.6 變數重要性的分析113
5.6.1 變數重要性分析的一般方法113
5.6.2 變數重要性分淚兵阿析的套用示例116
第6章 分類預測:Clementine的決策樹119
6.1 決策樹算法概述119
6.1.1 什麼是決策樹119
6.1.2 決策樹的幾何理解121
6.1.3 決策樹的核心問題121
6.2 Clementine的C5.0算法及套用124
6.2.1 信息熵和信息增益124
6.2.2 C5.0的決策樹生長算法126
6.2.3 C5.0的剪枝算法130
6.2.4 C5.0的推理規則集132
6.2.5 C5.0的基本應妹幾永用示例136
6.2.6 C5.0的損失矩陣和Boosting技術140
6.2.7 C5.0的模型評價145
6.2.8 C5.0的其他話題:推理規則、交叉驗證和未剪枝的決策樹147
6.3 Clementine的分類回歸樹及套用148
6.3.1 分類回歸樹的生長過程149
6.3.2 分類回歸樹的剪枝過程151
6.3.3 損失矩陣對分類樹的影響154
6.3.4 分類回歸樹的基本套用示例155
6.3.5 分類回歸樹的互動建模159
6.3.6 分類回歸樹的模型評價160
6.4 Clementine的CHAID算法及套用168
6.4.1 CHAID分組變數的預處理和選擇策略168
6.4.2 Exhaustive CHAID算法170
6.4.3 CHAID的剪枝171
6.4.4 CHAID的套用示例171
6.5 Clementine的QUEST算法及套用173
6.5.1 QUEST算法確定最佳分組變數和分割點的方法174
6.5.2 QUEST算法的套用示例176
6.6.1 不同模型的誤差對比177
6.6.2 不同模型收益的對比178
第7章 分類預測:Clementine的人工神經網路181
7.1.1 人工神經網路的概念和種類181
7.1.2 人工神經網路中的節點和意義183
7.1.3 人工神經網路建立的一般步驟185
7.2 Clementine的B-P反向傳播網路187
7.2.1 感知機模型188
7.2.2 B-P反向傳播網路的特點190
7.2.4 B-P反向傳播網路的其他問題196
7.3 Clementine的B-P反向傳播網路的套用199
7.3.1 基本操作說明200
7.3.2 計算結果說明202
7.3.3 提高模型預測精度204
7.4.1 徑向基函式網路中的隱節點和輸出節點204
7.4.2 徑向基函式網路的學習過程205
7.4.3 徑向基函式網路的套用示例207
第8章 分類預測:Clementine的統計方法209
8.1.1 二項Logistic回歸方程210
8.1.2 二項Logistic回歸方程係數的含義212
8.1.3 二項Logistic回歸方程的檢驗214
8.1.4 二項Logistic回歸分析的套用示例218
8.1.5 多項Logistic回歸分析的套用示例224
8.2 Clementine的判別分析及套用226
8.2.1 距離判別法226
8.2.2 Fisher判別法228
8.2.3 貝葉斯判別法231
8.2.4 判別分析的套用示例233
第9章 探索內部結構:Clementine的關聯分析242
9.1 簡單關聯規則及其有效性242
9.1.1 簡單關聯規則的基本概念243
9.1.2 簡單關聯規則的有效性和實用性245
9.2 Clementine的Apriori算法及套用249
9.2.2 依據頻繁項集產生簡單關聯規則251
9.2.3 Apriori算法的套用示例251
9.3 Clementine的GRI算法及套用256
9.3.1 GRI算法基本思路256
9.3.2 GRI算法的具體策略257
9.3.3 GRI算法的套用示例259
9.4 Clementine的序列關聯及套用260
9.4.1 序列關聯中的基本概念261
9.4.2 Sequence算法262
9.4.3 序列關聯的時間約束266
9.4.4 序列關聯分析的套用示例266
第10章 探索內部結構:Clementine的聚類分析270
10.1 聚類分析的一般問題270
10.1.1 聚類分析的提出270
10.1.2 聚類分析的算法271
10.2 Clementine的K-Means聚類及套用271
10.2.1 K-Means對“親疏程度”的測度271
10.2.2 K-Means聚類過程272
10.2.3 K-Means聚類的套用示例275
10.3 Clementine的兩步聚類及套用279
10.3.1 兩步聚類對“親疏程度”的測度279
10.3.2 兩步聚類過程281
10.3.3 聚類數目的確定282
10.3.4 兩步聚類的套用示例284
10.4 Clementine的Kohonen網路聚類及套用286
10.4.1 Kohonen網路的聚類機理286
10.4.2 Kohonen網路的聚類過程288
10.4.3 Kohonen網路聚類的示例290
10.5 基於聚類分析的離群點探索及套用295
10.5.1 多維空間基於聚類的診斷方法296
10.5.2 多維空間基於聚類的診斷方法套用示例299
參考文獻302
3.6.2 生成樣本集分割變數的示例71
第4章 Clementine樣本的管理73
4.1 樣本的排序73
4.2 樣本的條件篩選74
4.3 樣本的隨機抽樣75
4.4 樣本的濃縮處理76
4.5 樣本的分類匯總77
4.6 樣本的平衡處理78
4.7 樣本的其他管理79
4.7.1 數據轉置79
4.7.2 數據的重新組織81
第5章 Clementine數據的基本分析83
5.1 數據質量的探索84
5.1.1 數據的基本描述與質量探索84
5.1.2 離群點和極端值的修正87
5.1.3 缺失值的替補88
5.1.4 數據質量管理的其他功能89
5.2 基本描述分析90
5.2.1 計算基本描述統計量91
5.2.2 繪製散點圖93
5.3 變數分布的探索94
5.4 兩分類變數相關性的研究97
5.4.1 兩分類變數相關性的圖形分析97
5.4.2 兩分類變數相關性的數值分析100
5.5 兩總體的均值比較105
5.5.1 兩總體均值比較的圖形分析105
5.5.2 獨立樣本的均值檢驗107
5.5.3 配對樣本的均值檢驗111
5.6 變數重要性的分析113
5.6.1 變數重要性分析的一般方法113
5.6.2 變數重要性分析的套用示例116
第6章 分類預測:Clementine的決策樹119
6.1 決策樹算法概述119
6.1.1 什麼是決策樹119
6.1.2 決策樹的幾何理解121
6.1.3 決策樹的核心問題121
6.2 Clementine的C5.0算法及套用124
6.2.1 信息熵和信息增益124
6.2.2 C5.0的決策樹生長算法126
6.2.3 C5.0的剪枝算法130
6.2.4 C5.0的推理規則集132
6.2.5 C5.0的基本套用示例136
6.2.6 C5.0的損失矩陣和Boosting技術140
6.2.7 C5.0的模型評價145
6.2.8 C5.0的其他話題:推理規則、交叉驗證和未剪枝的決策樹147
6.3 Clementine的分類回歸樹及套用148
6.3.1 分類回歸樹的生長過程149
6.3.2 分類回歸樹的剪枝過程151
6.3.3 損失矩陣對分類樹的影響154
6.3.4 分類回歸樹的基本套用示例155
6.3.5 分類回歸樹的互動建模159
6.3.6 分類回歸樹的模型評價160
6.4 Clementine的CHAID算法及套用168
6.4.1 CHAID分組變數的預處理和選擇策略168
6.4.2 Exhaustive CHAID算法170
6.4.3 CHAID的剪枝171
6.4.4 CHAID的套用示例171
6.5 Clementine的QUEST算法及套用173
6.5.1 QUEST算法確定最佳分組變數和分割點的方法174
6.5.2 QUEST算法的套用示例176
6.6.1 不同模型的誤差對比177
6.6.2 不同模型收益的對比178
第7章 分類預測:Clementine的人工神經網路181
7.1.1 人工神經網路的概念和種類181
7.1.2 人工神經網路中的節點和意義183
7.1.3 人工神經網路建立的一般步驟185
7.2 Clementine的B-P反向傳播網路187
7.2.1 感知機模型188
7.2.2 B-P反向傳播網路的特點190
7.2.4 B-P反向傳播網路的其他問題196
7.3 Clementine的B-P反向傳播網路的套用199
7.3.1 基本操作說明200
7.3.2 計算結果說明202
7.3.3 提高模型預測精度204
7.4.1 徑向基函式網路中的隱節點和輸出節點204
7.4.2 徑向基函式網路的學習過程205
7.4.3 徑向基函式網路的套用示例207
第8章 分類預測:Clementine的統計方法209
8.1.1 二項Logistic回歸方程210
8.1.2 二項Logistic回歸方程係數的含義212
8.1.3 二項Logistic回歸方程的檢驗214
8.1.4 二項Logistic回歸分析的套用示例218
8.1.5 多項Logistic回歸分析的套用示例224
8.2 Clementine的判別分析及套用226
8.2.1 距離判別法226
8.2.2 Fisher判別法228
8.2.3 貝葉斯判別法231
8.2.4 判別分析的套用示例233
第9章 探索內部結構:Clementine的關聯分析242
9.1 簡單關聯規則及其有效性242
9.1.1 簡單關聯規則的基本概念243
9.1.2 簡單關聯規則的有效性和實用性245
9.2 Clementine的Apriori算法及套用249
9.2.2 依據頻繁項集產生簡單關聯規則251
9.2.3 Apriori算法的套用示例251
9.3 Clementine的GRI算法及套用256
9.3.1 GRI算法基本思路256
9.3.2 GRI算法的具體策略257
9.3.3 GRI算法的套用示例259
9.4 Clementine的序列關聯及套用260
9.4.1 序列關聯中的基本概念261
9.4.2 Sequence算法262
9.4.3 序列關聯的時間約束266
9.4.4 序列關聯分析的套用示例266
第10章 探索內部結構:Clementine的聚類分析270
10.1 聚類分析的一般問題270
10.1.1 聚類分析的提出270
10.1.2 聚類分析的算法271
10.2 Clementine的K-Means聚類及套用271
10.2.1 K-Means對“親疏程度”的測度271
10.2.2 K-Means聚類過程272
10.2.3 K-Means聚類的套用示例275
10.3 Clementine的兩步聚類及套用279
10.3.1 兩步聚類對“親疏程度”的測度279
10.3.2 兩步聚類過程281
10.3.3 聚類數目的確定282
10.3.4 兩步聚類的套用示例284
10.4 Clementine的Kohonen網路聚類及套用286
10.4.1 Kohonen網路的聚類機理286
10.4.2 Kohonen網路的聚類過程288
10.4.3 Kohonen網路聚類的示例290
10.5 基於聚類分析的離群點探索及套用295
10.5.1 多維空間基於聚類的診斷方法296
10.5.2 多維空間基於聚類的診斷方法套用示例299
參考文獻302