《SPSS Modeler+Weka數據挖掘從入門到實戰》是2019年電子工業出版社出版的圖書。
基本介紹
- 中文名:SPSS Modeler+Weka數據挖掘從入門到實戰
- 出版時間:2019年5月
- 出版社:電子工業出版社
- 頁數:284 頁
- ISBN: 9787121319112
內容簡介,圖書目錄,
內容簡介
本書是一本面向商業數據挖掘建模分析人員的教材,從具體的商業數據分析案例入手,幫助讀者掌握數據挖掘的目的、方法、工具與分析步驟。本書所採用的分析工具為目前頗受好評的IBM SPSS Modeler及開源軟體Weka。IBM SPSS Modeler有很好的用戶接口,也有不錯的分析功能,但缺乏比較前沿的分析模組,以及很難與現有的信息系統結合,而Weka恰能彌補其缺憾。同時,這兩個軟體都不需要編程,適合初學者。本書具體內容由四位活躍在數據挖掘教學和項目開發一線的人員完成,內容側重軟體的實際操作。力圖將複雜的技術以淺顯的方式進行解釋,儘量避免涉及過多的數學內容。
圖書目錄
第1 篇 理論篇
第1 章 數據挖掘簡介 ................................................................................... 1
1.1 數據挖掘的起源、定義及目標 ....................................................................................... 2
1.2 數據挖掘的發展歷程 ....................................................................................................... 2
1.3 SPSS Modeler 和Weka 基礎操作 .................................................................................... 4
1.3.1 SPSS Modeler 軟體簡介 ....................................................................................... 4
1.3.2 建立一個SPSS Modeler 項目 .............................................................................. 5
1.3.3 Weka 軟體環境簡介 ............................................................................................. 8
1.3.4 Weka 簡單操作實例 ............................................................................................. 9
第2 章 數據挖掘方法論 .............................................................................. 15
2.1 數據挖掘方法論 ............................................................................................................. 16
2.1.1 CRISP-DM .......................................................................................................... 16
2.1.2 SEMMA .............................................................................................................. 16
2.2 資料庫中的知識挖掘步驟 ............................................................................................. 17
2.2.1 欄位選擇 ............................................................................................................. 17
2.2.2 數據清洗 ............................................................................................................. 18
2.2.3 欄位擴充 ............................................................................................................. 18
2.2.4 數據編碼 ............................................................................................................. 19
2.2.5 數據挖掘 ............................................................................................................. 20
2.2.6 結果呈現 ............................................................................................................. 21
2.3 案例:運用SPSS Modeler 和Weka 做客戶的信用風險評分模型 ............................. 22
2.3.1 案例說明 ............................................................................................................. 22
2.3.2 案例實操 ............................................................................................................. 23
2.3.3 運用SPSS Modeler 進行初步的數據挖掘 ........................................................ 28
2.3.4 運用Weka 進行數據匯入 .................................................................................. 34
2.3.5 Weka 自有數據存儲格式arff 簡介 ................................................................... 36
第3 章 基本的數據挖掘技術 ...................................................................... 38
3.1 描述性統計 ..................................................................................................................... 39
3.1.1 案例:通過數據判斷客戶是否需要新增電話線路 ......................................... 39
3.1.2 案例:運用描述性統計分析雜誌社的客戶特徵 ............................................. 40
3.2 可視化技術 ..................................................................................................................... 42
3.3 KNN 原理及實例 ........................................................................................................... 44
3.3.1 KNN(K 最近鄰)算法 ..................................................................................... 44
3.3.2 使用KNN 算法計算距離 .................................................................................. 45
3.3.3 案例:使用KNN 算法向用戶推薦電影 ........................................................... 49
3.4 案例:運用Weka 的KNN 算法對診斷結果進行預測 ..................................................... 52
3.4.1 案例說明 ............................................................................................................. 52
3.4.2 運用Weka 中的IBk 模型進行預測 .................................................................. 53
3.5 案例:運用SPSS Modeler 的KNN 算法預測客戶是否接受人壽保險推銷 ............. 58
3.5.1 案例說明 ............................................................................................................. 58
3.5.2 案例實操 ............................................................................................................. 59
第4 章 數據挖掘進階技術 .......................................................................... 68
4.1 數據挖掘的功能分類 ..................................................................................................... 69
4.1.1 描述型數據挖掘(無監督數據挖掘) ............................................................. 69
4.1.2 預測型數據挖掘(有監督數據挖掘) ............................................................. 70
4.2 數據挖掘的績效增益 ..................................................................................................... 72
4.2.1 數據挖掘模型評估指標:正確率、回響率、查全率、F 值 .......................... 72
4.2.2 數據挖掘模型評估指標:Gain Chart ................................................................ 74
4.2.3 數據挖掘模型評估指標:Lift Chart ................................................................. 75
4.2.4 數據挖掘模型評估指標:Profit Chart .............................................................. 76
4.3 數據挖掘網站 ................................................................................................................. 77
4.3.1 KDnuggets ........................................................................................................... 77
4.3.2 Kaggle ................................................................................................................. 80
4.4 案例:評估新產品的促銷活動效果 ............................................................................. 82
4.4.1 案例說明 ............................................................................................................. 83
4.4.2 數據及欄位描述 ................................................................................................. 83
4.4.3 效能評估方式 ..................................................................................................... 85
4.4.4 比賽結果排名 ..................................................................................................... 85
第2 篇 準備篇
第5 章 數據預處理 ..................................................................................... 87
5.1 欄位選擇 ......................................................................................................................... 88
5.1.1 數據整合 ............................................................................................................. 88
5.1.2 數據過濾 ............................................................................................................. 88
5.1.3 案例:運用SPSS Modeler 過濾數據 ................................................................ 89
5.2 數據清洗 ......................................................................................................................... 92
5.2.1 錯誤值的檢測及處理 ......................................................................................... 92
5.2.2 案例:運用SPSS Modeler 進行錯誤值的檢測及處理 .................................... 92
5.2.3 離群值的檢測及處理 ......................................................................................... 96
5.2.4 案例:運用SPSS Modeler 進行離群值的檢測及處理 .................................... 96
5.2.5 缺失值的檢測及處理 ....................................................................................... 100
5.2.6 案例:運用SPSS Modeler 進行缺失值的檢測及處理 .................................. 101
5.3 欄位擴充 ........................................................................................................................110
5.3.1 案例說明 ............................................................................................................110
5.3.2 案例:運用SPSS Modeler 進行欄位擴充及評估對效能的提升 ................... 111
5.4 數據編碼 ........................................................................................................................118
5.4.1 數據轉換 ............................................................................................................118
5.4.2 數據精簡 ........................................................................................................... 128
5.4.3 數據集的切割 ................................................................................................... 129
第6 章 關鍵變數挖掘技術 ........................................................................ 137
6.1 無效變數 ....................................................................................................................... 138
6.2 統計方式的變數選擇 ................................................................................................... 138
6.2.1 卡方檢驗 ........................................................................................................... 138
6.2.2 方差分析(ANOVA 檢驗)及t 檢驗 ............................................................. 138
6.2.3 案例:運用SPSS Modeler 進行關鍵變數挖掘 .............................................. 139
6.3 模型方式的變數選擇 ................................................................................................... 141
6.3.1 決策樹 ............................................................................................................... 141
6.3.2 Logistic 回歸 ..................................................................................................... 141
第7 章 貝葉斯網路 ................................................................................... 143
7.1 樸素貝葉斯 ................................................................................................................... 144
7.1.1 獨立性假設 ....................................................................................................... 145
7.1.2 機率的離散化 ................................................................................................... 147
7.2 什麼是貝葉斯網路 ....................................................................................................... 147
第8 章 線性回歸 ...................................................................................... 150
8.1 簡單線性回歸 ............................................................................................................... 151
8.2 多元回歸 ....................................................................................................................... 152
8.3 相關係數 ....................................................................................................................... 152
8.4 回歸分析案例 ............................................................................................................... 153
8.5 線性回歸模型評估 ....................................................................................................... 156
8.5.1 線性回歸模型評估指標:MAE、MSE 和RMSE ......................................... 156
8.5.2 線性回歸模型評估指標:R2 ........................................................................... 156
8.6 案例:運用SPSS Modeler 建立線性回歸模型 .......................................................... 157
8.6.1 案例說明 ........................................................................................................... 157
8.6.2 案例實操 ........................................................................................................... 157
第9 章 決策樹 .......................................................................................... 161
9.1 ID3 決策樹模型 ............................................................................................................ 162
9.2 ID3 算法........................................................................................................................ 165
9.2.1 ID3 算法的欄位選擇方式 ................................................................................ 165
9.2.2 使用決策樹進行分類 ....................................................................................... 168
9.2.3 決策樹與決策規則之間的關係 ....................................................................... 168
9.2.4 ID3 算法的缺點 ................................................................................................ 169
9.3 C5.0 算法 ...................................................................................................................... 170
9.3.1 C5.0 算法的欄位選擇方式 .............................................................................. 170
9.3.2 C5.0 算法的數值型欄位處理方式 .................................................................. 170
9.3.3 C5.0 算法的剪枝方法 ...................................................................................... 172
9.4 CART 算法 ................................................................................................................... 173
9.4.1 分類樹與回歸樹 ............................................................................................... 174
9.4.2 CART 分類樹的欄位選擇方式 ........................................................................ 174
9.4.3 CART 分類樹的剪枝作法 ................................................................................ 177
9.5 CHAID 算法 ................................................................................................................. 177
9.6 案例:運用SPSS Modeler 和Weka 建立決策樹模型 .................................................. 177
9.6.1 案例說明 ........................................................................................................... 177
9.6.2 案例實操 ........................................................................................................... 178
9.6.3 運用SPSS Modeler 建立互動式分類樹模型 .................................................. 179
9.6.4 運用Weka 建立互動式分類樹模型 ................................................................ 180
9.7 CART 回歸樹算法 ....................................................................................................... 186
9.7.1 CART 回歸樹的欄位選擇方式 ........................................................................ 186
9.7.2 利用模型樹提升CART 回歸樹的效率 ........................................................... 187
9.8 案例:運用SPSS Modeler 和Weka 建立回歸樹模型 .................................................. 188
9.8.1 案例說明 ........................................................................................................... 188
9.8.2 案例實操 ........................................................................................................... 188
9.8.3 使用Weka 對比“剪枝”前後的模型 ............................................................ 189
第10 章 神經網路 .................................................................................... 194
10.1 BP 神經網路模型 ....................................................................................................... 195
10.1.1 BP 神經網路模型的概念 ............................................................................. 195
10.1.2 BP 神經網路模型的架構方式 ..................................................................... 195
10.2 神經元的組成 ............................................................................................................. 198
10.3 神經網路模型如何傳遞信息 ..................................................................................... 199
10.4 修正神經網路模型的權重值及常數項 ..................................................................... 200
10.5 BP 神經網路模型與Logistic 回歸、線性回歸及非線性回歸之間的關係 ............. 201
10.6 案例:運用SPSS Modeler 建立類神經網路模型 .................................................... 202
第11 章 Logistic 回歸 ............................................................................... 208
11.1 Logistic 回歸與BP 神經網路的關係 ........................................................................ 210
11.2 Logistic 回歸的欄位選擇方式 ....................................................................................211
11.2.1 前向法 ............................................................................................................211
11.2.2 後向法 ........................................................................................................... 212
11.2.3 逐步法 ........................................................................................................... 212
11.3 案例:運用SPSS Modeler 建立Logistic 回歸模型 ...................................................... 213
11.3.1 案例說明 ....................................................................................................... 213
11.3.2 案例實操 ....................................................................................................... 213
第12 章 支持向量機 ................................................................................. 215
12.1 數據是線性可分的支持向量機 ................................................................................. 217
12.2 數據是線性不可分的支持向量機 ............................................................................. 219
12.3 案例:運用SPSS Modeler 建立SVM 模型 ............................................................. 221
第3 篇 關係篇
第13 章 聚類分析 .................................................................................... 230
13.1 相似性度量 ................................................................................................................. 232
13.1.1 二元變數的相似性度量 ............................................................................... 232
13.1.2 類別型變數的相似性度量 ........................................................................ 234
13.1.3 數值型變數的相似性度量 ........................................................................... 234
13.2 聚類算法 ..................................................................................................................... 234
13.2.1 互斥聚類與非互斥聚類算法 ....................................................................... 234
13.2.2 分層聚類算法 ............................................................................................... 235
13.2.3 分割式聚類算法 ........................................................................................... 236
13.3 分層聚類算法 ............................................................................................................. 236
13.3.1 單一連線法 ................................................................................................... 236
13.3.2 完全連線法 ................................................................................................... 237
13.3.3 平均連線法 ................................................................................................... 238
13.3.4 中心法 ........................................................................................................... 238
13.3.5 Ward's 法(華德法).................................................................................. 239
13.4 分割式聚類算法 ......................................................................................................... 240
13.4.1 K-Means 算法 ............................................................................................... 240
13.4.2 K-Medoids 算法 ............................................................................................ 243
13.4.3 SOM 算法 ..................................................................................................... 243
13.4.4 兩步法 ........................................................................................................... 243
13.5 集群判斷 ..................................................................................................................... 244
13.5.1 集群判斷方法:R2 ....................................................................................... 244
13.5.2 集群判斷方法:半徑R2 .............................................................................. 245
13.5.3 集群判斷方法:均方根標準差(RMSSTD) ........................................... 245
13.6 案例:運用SPSS Modeler 建立聚類模型 ................................................................ 246
13.6.1 案例說明 ....................................................................................................... 246
13.6.2 案例實操 ....................................................................................................... 246
第14 章 關聯規則 .................................................................................... 252
14.1 關聯規則的概念 ......................................................................................................... 253
14.2 關聯規則的評估指標 ................................................................................................. 253
14.2.1 支持度 ........................................................................................................... 253
14.2.2 置信度 ........................................................................................................... 254
14.3 Apriori 算法 ................................................................................................................ 254
14.3.1 暴力法的問題 ............................................................................................... 254
14.3.2 Apriori 算法的理論基礎 .............................................................................. 255
14.4 Apriori 算法實例說明 ................................................................................................ 255
14.4.1 候選項目組合的產生 ................................................................................... 255
14.4.2 候選項目組合的刪除 ................................................................................... 256
14.5 再談評估指標 ............................................................................................................. 256
14.5.1 支持度與置信度的問題 ............................................................................... 256
14.5.2 提升度指標 ................................................................................................... 257
14.6 關聯規則的延伸 ......................................................................................................... 257
14.6.1 虛擬商品的加入 ........................................................................................... 257
14.6.2 負向關聯規則 ............................................................................................... 257
14.7 案例:運用SPSS Modeler 建立關聯規則模型 ........................................................ 258
14.7.1 案例說明 ....................................................................................................... 258
14.7.2 案例實操 ....................................................................................................... 258
第15 章 序列模型 .................................................................................... 263
15.1 序列模型的概念 ......................................................................................................... 264
15.2 案例:運用SPSS Modeler 建立序列模型 ................................................................ 266
15.2.1 案例說明 ....................................................................................................... 266
15.2.2 案例實操 ....................................................................................................... 266