《IBM SPSS Modeler 18.0數據挖掘權威指南》是2020年2月人民郵電出版社出版的圖書,作者是張浩彬、周偉珠。
基本介紹
- 書名:IBM SPSS Modeler 18.0數據挖掘權威指南
- 作者:張浩彬、周偉珠
- 出版社:人民郵電出版社
- 出版時間:2020年2月
- 頁數:456 頁
- 定價:108 元
- 開本:16 開
- 裝幀:平裝
- ISBN:9787115507594
內容簡介,圖書目錄,
內容簡介
本書是一本以數據挖掘套用為主導,以SPSS Modeler為實踐框架的套用指南,內容涵蓋數據挖掘方法論、數據讀取、數據處理、數據可視化、統計分析與檢驗、數據挖掘算法、自動建模、集成與擴展、模型部署以及性能最佳化等,力求幫助讀者全面掌握數據挖掘項目的主要內容以及實踐細節。
zhua曲子白渡白顆
除了操作層面,本書也儘可能地把專業晦澀的數據挖掘知識及商業套用內容以通俗易懂的方式傳遞給讀者,同時所有場景會結合IBM SPSS工具進行實現並提供樣例學習,方便讀者在學習的同時加深鞏固和理解。
如果你是在校學生、剛剛從事數據分析的大學畢業生、數據分析愛好者、市場行銷人員、產品運營人員或者數據分析師,如果你希望提升自己的數據挖掘技術,那么就適合閱讀本書。
圖書目錄
第 1章 IBM SPSS Modeler基本介紹 1
1.1 SPSS簡介 1
1.2 SPSS Modeler的特點 1
1.3 CRISP-DM方法論 4
1.4 SPSS Modeler 下載與安裝 6
1.5 SPSS Modeler的主界面及基本操作 9
1.5.1 主界面介紹 9
1.5.2 滑鼠基本操作 15
1.6 SPSS Modeler連線伺服器端 15
1.7 從SPSS Modeler中獲取幫助 17
1.8 實戰技巧 20
第 2章 數據讀取——源節點 24
2.1 數據的身份(存儲類型、測量級別和角色) 24
2.1.1 變數的存儲類型 24
2.1.2 變數的測量級別 25
2.1.3 變數的角色 26
2.2 數據讀取 26
2.2.1 讀取Excel檔案數據 27
2.2.2 讀取變數檔案數據 30
2.2.3 讀取SPSS(.sav)檔案數據 32
2.2.4 讀取資料庫數據 36
2.3 實戰技巧 40
第3章 數據整理——關於數據的基本設定與集成 43
3.1 欄位的“類型”功能 43
3.2 欄位的“過濾器”功能 44
3.3 數據集成 46
3.3.1 數據的記錄集成:追加節點 46
3.3.2 數據的欄位集成:合併節點 49
3.4 實戰技巧 51
第4章 數據整理——關於行的處理 53
4.1 數據“選擇”功能 53
4.1.1 功能介紹 53
4.1.2 實戰技巧 55
4.2 使用參數及全局變數實現數據選擇功能 56
4.2.1 參數功能 56
4.2.2 使用參數實例介紹 57
4.2.3 使用全局變數功能介紹 59
4.2.4 使用全局變數實例介紹 59
4.3 數據排序 62
4.4 數據區分 63
4.5 數據匯總 68
4.5.1 功能介紹 68
4.5.2 實戰技巧 72
第5章 數據整理——關於列的處理 73
5.1 導出 73
5.1.1 功能介紹 73
5.1.2 實例介紹 81
5.2 填充 84
5.3 重新分類 86
5.4 匿名化 89
5.5 分級化 92
5.6 設為標誌 100
5.6.1 功能介紹 100
5.6.2 實例介紹 100
5.7 重建 103
5.7.1 功能介紹 103
5.7.2 實例介紹 104
5.8 轉置 107
5.8.1 功能介紹 107
5.8.2 實例介紹 107
5.9 歷史記錄 109
5.9.1 功能介紹 109
5.9.2 實例介紹 109
5.10 欄位重排 113
5.11 時間間隔 116
5.11.1 功能介紹 116
5.11.2 實例介紹 116
5.12 自動數據準備 121
第6章 圖形可視化——圖形節點 128
6.1 “散點圖”節點 128
6.1.1 散點圖 128
6.1.2 線圖 139
6.1.3 多重散點圖 142
6.1.4 時間散點圖 143
6.2 “條形圖”節點 145
6.2.1 簡單條形圖 145
6.2.2 堆積條形圖 147
6.3 “直方圖”節點 148
6.3.1 直方圖 148
6.3.2 堆積直方圖 149
6.4 “網路”節點 151
6.5 “圖形板”節點 154
6.5.1 氣泡圖 155
6.5.2 散點圖矩陣 156
6.5.3 箱圖 157
6.5.4 聚類箱圖 159
6.5.5 熱圖 161
6.6 實戰技巧:圖形的編輯模式 162
第7章 描述性統計分析 164
7.1 描述性統計分析概述 164
7.2 數據審核,一鍵輸出描述性統計分析結果169
7.3 缺失值的定義、檢查和處理 173
7.3.1 缺失值的定義和檢查 173
7.3.2 缺失值的自動化處理 177
7.4 實戰技巧 182
第8章 常用的統計檢驗分析 184
8.1 兩個連續型變數的關係分析——相關分析 184
8.1.1 相關分析 184
8.1.2 相關分析實踐——“Statistics”節點 185
8.2 兩個分類型變數的關係分析——卡方檢驗 187
8.2.1 列聯表與卡方檢驗 188
8.2.2 卡方檢驗實踐——“矩陣”節點 190
8.3 連續型變數與分類型變數間的關係分析——t檢驗及卡方分析 193
8.3.1 兩組獨立樣本均值比較 193
8.3.2 兩組配對樣本均值比較 194
8.3.3 方差分析 194
8.3.4 均值比較實踐——“平均值”節點 195
8.4 實戰技巧:相關分析的注意事項 199
第9章 回歸分析 200
9.1 一元線性回歸分析 200
9.2 一元線性回歸實踐 203
9.3 多元線性回歸分析 206
9.4 多元線性回歸實踐 210
9.5 逐步回歸分析 216
9.6 逐步回歸實踐 218
9.7 實戰技巧 220
第 10章 Logistic回歸分析 222
10.1 Logistic回歸理論概要 222
10.2 Logistic回歸中的檢驗 225
10.2.1 方程的顯著性檢驗 225
10.2.2 係數顯著性檢驗 225
10.2.3 擬合優度檢驗 227
10.3 Logistic回歸實踐案例 228
10.4 實戰技巧 237
第 11章 建模前的最佳化及準備工作 241
11.1 樣本管理與分區 241
11.1.1 數據抽樣 241
11.1.2 數據分區 244
11.1.3 數據平衡 245
11.2 特徵選擇 247
11.3 數據變換 253
11.4 實戰技巧:分區與平衡的順序 255
第 12章 RFM分析 257
第 13章 決策樹 264
13.1 決策樹概述 264
13.1.1 決策樹的直觀理解 264
13.1.2 決策樹的生長 265
13.1.3 決策樹的剪枝 266
13.2 C5.0算法 267
13.2.1 C5.0算法的決策樹生長 267
13.2.2 C5.0算法的決策樹剪枝 270
13.2.3 代價敏感學習 270
13.2.4 C5.0算法實踐案例 271
13.3 CART算法 277
13.3.1 CART算法的決策樹生長 277
13.3.2 CART算法的決策樹剪枝 279
13.3.3 先驗機率 280
13.3.4 CART算法實踐案例 281
13.4 實戰技巧 287
13.4.1 生成規則集 287
13.4.2 跟蹤規則 289
第 14章 神經網路 291
14.1 感知機 292
14.2 多層感知機與誤差反向傳播算法 295
14.2.1 隱藏層 295
14.2.2 反向傳播算法 296
14.3 神經網路實踐 299
14.4 實戰技巧:生成“報告” 305
第 15章 集成學習算法 311
15.1 Bagging 311
15.2 Boosting 312
15.3 隨機森林 314
15.4 集成學習算法實踐 314
15.4.1 Bagging和Boosting實踐 315
15.4.2 隨機森林實踐 320
15.4.3 各個集成學習算法的結果比較 324
15.5 異質集成——“整體”節點 325
第 16章 聚類分析 330
16.1 聚類方法概述 330
16.2 聚類方法的關鍵:距離 330
16.3 K-means算法 331
16.3.1 K-means算法原理 331
16.3.2 K-means的其他注意事項 332
16.4 K-means聚類實踐 335
16.5 實踐技巧:使用平行圖進行比較分析 341
第 17章 KNN分類器 343
17.1 KNN學習方法原理 343
17.2 KNN分類實踐 345
17.2.1 分類預測 346
17.2.2 最近鄰識別 353
第 18章 關聯分析 356
18.1 關聯分析的基本概念 356
18.2 關聯規則的有效性指標 357
18.2.1 關聯規則的基礎評價性指標 358
18.2.2 關聯規則的實用性指標 359
18.2.3 其他的關聯規則評估指標 360
18.3 Apriori算法 361
18.3.1 生成頻繁項集 361
18.3.2 生成關聯規則 362
18.4 Apriori關聯分析實踐 363
18.5 實戰技巧:導出生成的關聯規則 367
第 19章 自動建模 368
19.1 自動分類 368
19.1.1 功能介紹 368
19.1.2 實例介紹 368
19.2 自動聚類 375
19.2.1 功能介紹 375
19.2.2 實例介紹 376
19.3 自動數值 381
19.3.1 功能介紹 381
19.3.2 實例介紹 381
第 20章 蒙特卡羅模擬法 386
20.1 模擬生成 386
20.1.1 功能介紹 386
20.1.2 實例介紹 389
20.2 模擬擬合 393
20.2.1 功能介紹 393
20.2.2 實例介紹 394
20.3 模擬求值 396
20.3.1 功能介紹 396
20.3.2 實例介紹 396
第 21章 SPSS Modeler的集成與擴展 404
21.1 SPSS Modeler與R、Python集成 404
21.1.1 概述 404
21.1.2 SPSS Modeler與R的集成環境準備 404
21.1.3 與R的集成功能介紹 407
21.1.4 實例介紹 408
21.2 定製對話框實現與R、Python的集成 416
21.2.1 定製對話框簡介 416
21.2.2 安裝配置自定義節點 422
21.3 SPSS Modeler擴展功能 422
21.3.1 功能介紹 422
21.3.2 獲取天氣數據的套用分析案例 425
第 22章 SPSS Modeler模型部署 434
22.1 產品架構 434
22.2 通過批處理任務定時運行模型 435
22.2.1 功能介紹 435
22.2.2 實例介紹 436
22.3 SPSS Modeler伺服器安裝及管理(For Linux) 438
22.3.1 正常維護SPSS Modeler伺服器 438
22.3.2 SPSS Modeler 伺服器如何在Linux上安裝及配置 439
22.3.3 配置ODBC連線資料庫 440
22.4 SPSS Modeler官方支持的資料庫和Hadoop平台 443
第 23章 性能最佳化 448
23.1 功能介紹 448
23.2 客戶端SQL性能最佳化 451
23.3 資料庫內建模 453
23.3.1 功能介紹 453
23.3.2 實例介紹 453
23.4 使用外部程式批量載入 456