數據挖掘實踐教程

數據挖掘實踐教程

《數據挖掘實踐教程》是2017年1月清華大學出版社出版的圖書,作者是吳思遠、鄒洋、黃梅根、賈玲。

基本介紹

  • 書名:數據挖掘實踐教程
  • 作者:吳思遠、鄒洋、黃梅根、賈玲
  • ISBN:9787302452041
  • 定價:48.80元
  • 出版社:清華大學出版社
  • 出版時間:2017年1月
內容簡介,圖書目錄,

內容簡介

本書注重數據挖掘理論,將理論與實踐相結合、知識理論與具體實現方法相結合,由淺入深地介紹了數據分析與挖掘的相關知識。全書分為3部分。第1部戒照淋分介紹了數據挖掘理論(第1~3章),第2部分介紹了Excel 2010數據分析與挖掘、SQL Server 2012數據挖掘、SPSS數據分析與挖掘的實踐過程(第4~9章),第3部分介紹了SQL Server和SPSS數據挖掘的實驗內容(第10章)。
本書為教師提供了配套的教學資源,可以作為計算機、智慧型科學類專業本科生的數據挖掘課程教材,也可以作為專業技術人員的自學參考書及數據挖掘愛好者的自學用書。

圖書目錄

第和舉霉1章 緒論 1
1.1 商業智慧型 1
1.1.1 商業智慧型概述 1
1.1.2 商業智慧型的發展 4
1.2 數據挖掘 6
1.2.1 數據挖掘的定義 6
1.2.2 數據挖掘的重要性 7
1.2.3 數據挖掘的功能 8
1.2.4 數據挖掘的方法和經典算法 9
1.3 數據倉庫 12
1.3.1 數據倉庫的產生與發展 12
1.3.2 數據倉庫的定義 13
1.3.3 數據倉庫與數據挖掘的關係 13
第2章 數據倉庫與在線上分析 15
2.1 數據倉庫 15
2.1.1 數據倉庫的基本概念 15
2.1.2 數據倉付和庫的體系結構 20
2.1.3 數據倉庫的數據模型 21
2.2 數據倉庫的設計步驟 23
2.2.1 概念模型設計 24
2.2.2 邏輯模型設計 26
2.2.3 物理模型設計 28
2.2.4 數據倉庫的生成 31
2.2.5 數據倉庫的運行與維護 33
2.3 在線上分析技術 34
2.3.1 OLAP概述 34
2.3.2 OLAP多維分析 37
2.3.3 MOLAP與ROLAP 38
第3章 數據挖掘運用的理論和技術 41
3.1 回歸分析 41
3.1.1 簡單線性回歸分析 42
3.1.2 多元回歸分析 44
3.1.3 嶺回歸分析 46
3.1.4 logistic回歸分析 46
3.2 關聯規則 47
3.2.1 關聯規則概述 47
3.2.2 Apriori算法 50
3.2.3 FP-Growth算法 53
3.3 聚類分析 55
3.3.1 聚類概述 55
3.3.2 聚類中的相異度計算 57
3.3.3 基於劃分的聚類 60
3.3.4 基於層次的聚類 61
3.4 決策樹分析 63
3.4.1 資訊理論的基本原理 63
3.4.2 ID3算法 65
3.4.3 C4.5算法 67
3.5 其他分析方法 68
第4章 用Excel 2010進行數據分析 71
4.1 安裝前的準備 71
4.1.1 下載表分析工具 71
4.1.2 系統要求 71
4.2 安裝表分析工具 72
4.3 配置表分析工具 75
4.4 使用表分析工具的要求悼疊捆 79
4.5 分析關鍵影響因素 82
4.5.1 影響因素主報表 84
4.5.2 影響因素對比報表 86
4.6 檢測類別 86
4.7 從示例填充 90
4.8 預測 93
4.9 突出顯示異常值 94
4.10 套用場景分析 98
4.10.1 目標查頸雅組糊找 98
4.10.2 假設 101
4.11 預詢紙奔測計算器及可列印計算器 104
4.11.1 預測報墊虹槳再表 104
4.11.2 預測計算器 106
4.11.3 可列印計算器 107
4.12 購物籃分析 108
4.12.1 購物籃捆綁銷售商品 108
4.12.2 購物籃推薦 109
4.12.3 高級參數設定 110
第5章 用Excel 2010進行數據挖掘 111
5.1 數據挖掘簡介 111
5.1.1 業務理解 111
5.1.2 數據理解 112
5.1.3 數據準備 112
5.1.4 建立模型 112
5.1.5 評價 112
5.1.6 實施 112
5.1.7 Excel的數據挖掘過程 113
5.2 獲取外部數據 113
5.3 數據準備 114
5.3.1 瀏覽數據 114
5.3.2 清除數據 118
5.3.3 示例數據 124
5.4 數據建模 127
5.4.1 分類 127
5.4.2 估計 132
5.4.3 聚類分析 136
5.4.4 關聯 141
5.4.5 預測 145
5.4.6 高級 148
5.5 準確性和驗證 153
5.5.1 準確性圖表 153
5.5.2 分類矩陣 156
5.5.3 利潤圖 158
5.5.4 交叉驗證 161
5.6 模型用法 164
5.6.1 瀏覽 164
5.6.2 文檔模型 166
5.6.3 查詢 168
5.7 管理和連線 171
5.7.1 管理模型 172
5.7.2 連線與跟蹤 173
第6章 SQL Server 2012數據挖掘 174
6.1 SSDT(SQL Server Data Tools)簡介 174
6.1.1 下載SSDT 174
6.1.2 系統要求 174
6.2 安裝SSDT-BI 175
6.3 安裝示例資料庫 180
6.4 SSDT-BI用戶界面 182
6.5 創建挖掘項目 183
6.6 設定數據源 185
6.7 設定數據源視圖 188
6.7.1 新建數據源視圖 188
6.7.2 使用數據源視圖 190
6.8 設定挖掘結構 193
6.9 處理挖掘模型 198
6.10 查看挖掘模型 199
6.11 挖掘準確性圖表 201
6.11.1 輸入選擇 201
6.11.2 提升圖 202
6.11.3 利潤圖 203
6.11.4 分類矩陣 203
6.11.5 交叉驗證 204
6.12 挖掘模型預測 205
第7章 Microsoft數據挖掘算法 208
7.1 背景知識 208
7.1.1 功能選擇 208
7.1.2 功能選擇的方法 209
7.1.3 興趣性分數 209
7.1.4 Shannon平均信息量 209
7.1.5 貝葉斯K2算法 209
7.1.6 貝葉斯BDE算法 210
7.2 Microsoft決策樹算法 210
7.2.1 使用決策樹算法 210
7.2.2 決策樹算法的原理 210
7.2.3 決策樹算法參數 212
7.3 Microsoft聚類算法 214
7.3.1 使用聚類算法 214
7.3.2 聚類算法的原理 214
7.3.3 聚類算法參數 216
7.4 Microsoft關聯規則算法 218
7.4.1 使用關聯規則算法 218
7.4.2 關聯規則算法的原理 218
7.4.3 關聯規則算法參數 220
7.5 Microsoft時序算法 221
7.5.1 使用時序算法 221
7.5.2 時序算法的原理 222
7.5.3 時序算法參數 224
7.6 Microsoft樸素貝葉斯算法 226
7.6.1 使用樸素貝葉斯算法 226
7.6.2 貝葉斯算法的原理 227
7.6.3 貝葉斯算法參數 228
7.7 Microsoft神經網路算法 229
7.7.1 使用神經網路算法 229
7.7.2 神經網路算法的原理 229
7.7.3 神經網路算法參數 232
第8章 SPSS數據挖掘基礎 234
8.1 SPSS發展簡史 234
8.2 SPSS操作入門 235
8.2.1 SPSS的啟動 235
8.2.2 SPSS的退出 236
8.3 SPSS的界面 236
8.3.1 SPSS的視窗 236
8.3.2 SPSS的選單 237
8.4 建立SPSS檔案 237
8.4.1 SPSS檔案類型 237
8.4.2 數據錄入 238
8.4.3 檔案的保存與導出 238
8.5 SPSS數據的變數屬性定義 239
8.5.1 變數名稱 239
8.5.2 變數類型 239
8.5.3 變數寬度和小數 240
8.5.4 標籤和值 240
8.5.5 變數缺失值 241
8.5.6 變數顯示列、對齊方式 241
8.5.7 變數測量方式 242
8.5.8 變數角色 242
8.6 SPSS數據管理 242
8.6.1 插入或刪除個案 242
8.6.2 插入或刪除變數 243
8.6.3 數據排序 243
8.6.4 數據的行列轉置 245
8.6.5 選取個案 245
8.6.6 數據合併 246
8.6.7 拆分數據檔案 248
8.7 SPSS數據轉換 249
8.7.1 計算產生變數 249
8.7.2 對個案內的值計數 250
8.7.3 重新編碼 251
第9章 SPSS數據挖掘常用的統計
分析方法 254
9.1 基本描述統計 254
9.1.1 頻數分析 254
9.1.2 描述分析 257
9.1.3 探索分析 259
9.1.4 交叉表分析 263
9.2 T檢驗 268
9.2.1 單樣本T檢驗 268
9.2.2 獨立樣本T檢驗 269
9.2.3 配對樣本T檢驗 271
9.3 方差分析 272
9.3.1 單因素方差分析 273
9.3.2 多因素方差分析 276
9.3.3 重複測量方差分析 282
9.4 多元回歸分析 286
9.4.1 多元線性回歸 286
9.4.2 Logistic回歸 292
9.5 聚類分析 297
9.5.1 兩步聚類分析 298
9.5.2 K-平均值聚類分析 301
9.5.3 系統聚類分析 304
9.6 相關分析 309
9.6.1 線性相關分析 309
9.6.2 偏相關分析 311
9.7 因子分析 313
第10章 數據挖掘實驗 319
10.1 SQL Server 2012數據挖掘實驗 319
10.1.1 實踐關聯規則挖掘方法 319
10.1.2 實踐聚類挖掘方法 331
10.1.3 實踐貝葉斯分類方法 338
10.2 SPSS數據挖掘實驗 341
10.2.1 SPSS基本數據管理與數據
轉換操作 341
10.2.2 SPSS均值比較與回歸分析
操作 351
10.2.3 SPSS聚類、相關、因子分析
操作 356
參考文獻 361
4.1.1 下載表分析工具 71
4.1.2 系統要求 71
4.2 安裝表分析工具 72
4.3 配置表分析工具 75
4.4 使用表分析工具的要求 79
4.5 分析關鍵影響因素 82
4.5.1 影響因素主報表 84
4.5.2 影響因素對比報表 86
4.6 檢測類別 86
4.7 從示例填充 90
4.8 預測 93
4.9 突出顯示異常值 94
4.10 套用場景分析 98
4.10.1 目標查找 98
4.10.2 假設 101
4.11 預測計算器及可列印計算器 104
4.11.1 預測報表 104
4.11.2 預測計算器 106
4.11.3 可列印計算器 107
4.12 購物籃分析 108
4.12.1 購物籃捆綁銷售商品 108
4.12.2 購物籃推薦 109
4.12.3 高級參數設定 110
第5章 用Excel 2010進行數據挖掘 111
5.1 數據挖掘簡介 111
5.1.1 業務理解 111
5.1.2 數據理解 112
5.1.3 數據準備 112
5.1.4 建立模型 112
5.1.5 評價 112
5.1.6 實施 112
5.1.7 Excel的數據挖掘過程 113
5.2 獲取外部數據 113
5.3 數據準備 114
5.3.1 瀏覽數據 114
5.3.2 清除數據 118
5.3.3 示例數據 124
5.4 數據建模 127
5.4.1 分類 127
5.4.2 估計 132
5.4.3 聚類分析 136
5.4.4 關聯 141
5.4.5 預測 145
5.4.6 高級 148
5.5 準確性和驗證 153
5.5.1 準確性圖表 153
5.5.2 分類矩陣 156
5.5.3 利潤圖 158
5.5.4 交叉驗證 161
5.6 模型用法 164
5.6.1 瀏覽 164
5.6.2 文檔模型 166
5.6.3 查詢 168
5.7 管理和連線 171
5.7.1 管理模型 172
5.7.2 連線與跟蹤 173
第6章 SQL Server 2012數據挖掘 174
6.1 SSDT(SQL Server Data Tools)簡介 174
6.1.1 下載SSDT 174
6.1.2 系統要求 174
6.2 安裝SSDT-BI 175
6.3 安裝示例資料庫 180
6.4 SSDT-BI用戶界面 182
6.5 創建挖掘項目 183
6.6 設定數據源 185
6.7 設定數據源視圖 188
6.7.1 新建數據源視圖 188
6.7.2 使用數據源視圖 190
6.8 設定挖掘結構 193
6.9 處理挖掘模型 198
6.10 查看挖掘模型 199
6.11 挖掘準確性圖表 201
6.11.1 輸入選擇 201
6.11.2 提升圖 202
6.11.3 利潤圖 203
6.11.4 分類矩陣 203
6.11.5 交叉驗證 204
6.12 挖掘模型預測 205
第7章 Microsoft數據挖掘算法 208
7.1 背景知識 208
7.1.1 功能選擇 208
7.1.2 功能選擇的方法 209
7.1.3 興趣性分數 209
7.1.4 Shannon平均信息量 209
7.1.5 貝葉斯K2算法 209
7.1.6 貝葉斯BDE算法 210
7.2 Microsoft決策樹算法 210
7.2.1 使用決策樹算法 210
7.2.2 決策樹算法的原理 210
7.2.3 決策樹算法參數 212
7.3 Microsoft聚類算法 214
7.3.1 使用聚類算法 214
7.3.2 聚類算法的原理 214
7.3.3 聚類算法參數 216
7.4 Microsoft關聯規則算法 218
7.4.1 使用關聯規則算法 218
7.4.2 關聯規則算法的原理 218
7.4.3 關聯規則算法參數 220
7.5 Microsoft時序算法 221
7.5.1 使用時序算法 221
7.5.2 時序算法的原理 222
7.5.3 時序算法參數 224
7.6 Microsoft樸素貝葉斯算法 226
7.6.1 使用樸素貝葉斯算法 226
7.6.2 貝葉斯算法的原理 227
7.6.3 貝葉斯算法參數 228
7.7 Microsoft神經網路算法 229
7.7.1 使用神經網路算法 229
7.7.2 神經網路算法的原理 229
7.7.3 神經網路算法參數 232
第8章 SPSS數據挖掘基礎 234
8.1 SPSS發展簡史 234
8.2 SPSS操作入門 235
8.2.1 SPSS的啟動 235
8.2.2 SPSS的退出 236
8.3 SPSS的界面 236
8.3.1 SPSS的視窗 236
8.3.2 SPSS的選單 237
8.4 建立SPSS檔案 237
8.4.1 SPSS檔案類型 237
8.4.2 數據錄入 238
8.4.3 檔案的保存與導出 238
8.5 SPSS數據的變數屬性定義 239
8.5.1 變數名稱 239
8.5.2 變數類型 239
8.5.3 變數寬度和小數 240
8.5.4 標籤和值 240
8.5.5 變數缺失值 241
8.5.6 變數顯示列、對齊方式 241
8.5.7 變數測量方式 242
8.5.8 變數角色 242
8.6 SPSS數據管理 242
8.6.1 插入或刪除個案 242
8.6.2 插入或刪除變數 243
8.6.3 數據排序 243
8.6.4 數據的行列轉置 245
8.6.5 選取個案 245
8.6.6 數據合併 246
8.6.7 拆分數據檔案 248
8.7 SPSS數據轉換 249
8.7.1 計算產生變數 249
8.7.2 對個案內的值計數 250
8.7.3 重新編碼 251
第9章 SPSS數據挖掘常用的統計
分析方法 254
9.1 基本描述統計 254
9.1.1 頻數分析 254
9.1.2 描述分析 257
9.1.3 探索分析 259
9.1.4 交叉表分析 263
9.2 T檢驗 268
9.2.1 單樣本T檢驗 268
9.2.2 獨立樣本T檢驗 269
9.2.3 配對樣本T檢驗 271
9.3 方差分析 272
9.3.1 單因素方差分析 273
9.3.2 多因素方差分析 276
9.3.3 重複測量方差分析 282
9.4 多元回歸分析 286
9.4.1 多元線性回歸 286
9.4.2 Logistic回歸 292
9.5 聚類分析 297
9.5.1 兩步聚類分析 298
9.5.2 K-平均值聚類分析 301
9.5.3 系統聚類分析 304
9.6 相關分析 309
9.6.1 線性相關分析 309
9.6.2 偏相關分析 311
9.7 因子分析 313
第10章 數據挖掘實驗 319
10.1 SQL Server 2012數據挖掘實驗 319
10.1.1 實踐關聯規則挖掘方法 319
10.1.2 實踐聚類挖掘方法 331
10.1.3 實踐貝葉斯分類方法 338
10.2 SPSS數據挖掘實驗 341
10.2.1 SPSS基本數據管理與數據
轉換操作 341
10.2.2 SPSS均值比較與回歸分析
操作 351
10.2.3 SPSS聚類、相關、因子分析
操作 356
參考文獻 361

相關詞條

熱門詞條

聯絡我們