內容簡介
本書採用SAS公司的統計軟體包JMP Pro進行實踐性套用,使用引人入勝的實際案例來構建關鍵數據挖掘方法(尤其是分類和預測的預測模型)的理論及其實踐理解。本書所討論的主題包括數據可視化、降維、聚類、線性和邏輯回歸、分類和回歸樹、判別分析、樸素貝葉斯、人工神經網路、增量模型、集成算法以及時間序列預測等。
作者簡介
蓋麗特.徐茉莉博士是中國台灣清華大學服務科學研究所的特聘教授。自2004年以來,她在馬里蘭大學、Statistics.com、印度商學院和中國台灣清華大學設計並指導了數據挖掘課程。徐茉莉教授以她在商業分析領域的研究和教學而聞名,她的研究方向是在信息系統和醫療保健方面的統計和數據挖掘方法。她撰寫了70篇期刊文章、書籍、教材和圖書章節,包括Wiley出版的《商業數據挖掘:概念、技術和應用程式XLMiner®(第三版)》。
彼得.布魯斯是統計教育研究所的主席和創始人。他撰寫了多篇期刊文章,並且是重採樣統計軟體的開發者。他是《統計分析導論:基於重採樣角度》一書的作者以及《商業數據挖掘: 概念、技術和應用程式XLMiner(第三版)》的合著者之一。
米婭·史蒂芬斯是SAS/JMP®的學術顧問。在加入SAS公司之前,她曾是新罕布夏大學的統計學兼職教授,也是North Haven Group有限責任公司(一家統計培訓和諮詢公司)的創始成員。同時是另外三本書的合著者,包括由Wiley出版的《六西格瑪可視化:更精益化的數據分析(第二版)》。
尼廷·帕特爾博士是位於麻薩諸塞州劍橋市的Cytel有限公司的主席和聯合創始人,美國統計協會會士,同時也是麻省理工學院和哈佛大學的客座教授。他是印度計算機學會會士,並在印度管理學院艾哈邁德巴德分校擔任15年教授工作。他也是Wiley出版的《商業數據挖掘: 概念、技術和應用程式XLMiner(第三版)》的合著者之一。
目錄
第一部分 預備知識
1 導論002
1.1 什麼是商業分析? 002
1.2 什麼是數據挖掘? 004
1.3 數據挖掘及相關用語 004
1.4 大數據 005
1.5 數據科學 006
1.6 為什麼會有這么多不同的方法? 007
1.7 術語和符號 007
1.8 本書框架 009
2 數據挖掘概述 ·013
2.1 引言 013
2.2 數據挖掘的核心思想 014
2.3 數據挖掘步驟 016
2.4 初步步驟 018
2.5 預測能力和過擬合 024
2.6 用JMP Pro建立預測模型 029
2.7 用JMP Pro進行數據挖掘 036
2.8 自動化數據挖掘解決方案 037
第二部分數據探索與降維
3 數據可視化046
3.1 數據可視化的用途046
3.2 數據實例047
3.3 基本圖形:條形圖、折線圖和散點圖049
3.4 多維可視化056
3.5 特殊可視化068
3.6 基於數據挖掘目標的主要可視化方案和操作概要072
4 降維076
4.1 引言076
4.2 維度災難077
4.3 實際考慮077
4.4 數據匯總078
4.5 相關分析082
4.6 減少分類變數中的類別數量082
4.7 將分類型變數轉換為連續型變數084
4.8 主成分分析084
4.9 利用回歸模型降維094
4.10 利用分類和回歸樹降維094
第三部分性能評估
5 評估預測效果 ·098
5.1 引言098
5.2 評價預測性能099
5.3 評判分類效果101
5.4 評判分類性能112
5.5 過採樣115
第四部分預測與分類方法
6 多元線性回歸 ·122
6.1 引言122
6.2 解釋模型與預測模型123
6.3 估計回歸方程和預測124
6.4 線性回歸中的變數選擇129
7 k近鄰法142
7.1 k-NN 分類(分類型結果變數)142
7.2 數值型結果變數下的k-NN 方法·147
7.3 k-NN 算法的優點和缺點149
8 樸素貝葉斯分類器 153
8.1 引言153
8.2 使用完全(精確)貝葉斯分類器155
8.3 樸素貝葉斯方法的優點和缺點163
9 分類和回歸樹 ·168
9.1 引言168
9.2 分類樹169
9.3 生成樹172
9.4 評估分類樹的效果176
9.5 避免過擬合178
9.6 樹中的分類準則181
9.7 多分類的分類樹182
9.8 回歸樹182
9.9 樹的優點和缺點184
9.10 預測方法的提高:組合多棵樹186
9.11 不純度的提取和度量188
10 邏輯回歸 193
10.1 引言 ·193
10.2 邏輯回歸模型 ·195
10.3 評價分類性能 ·202
10.4 完整分析案例:預測航班延誤 ·205
10.5 附錄:邏輯回歸的概括 ·214
11 神經網路 225
11.1 引言 ·225
11.2 神經網路的概念和結構 ·226
11.3 擬合數據 ·226
11.4 JMP Pro 用戶輸入·240
11.5 探索預測變數和回響變數的關係 ·242
11.6 神經網路的優點和缺陷 ·243
12 判別分析 247
12.1 引言 ·247
12.2 觀測值到類的距離 ·249
12.3 從距離到傾向和分類 ·251
12.4 判別分析的分類性能 ·254
12.5 先驗機率 ·255
12.6 多類別分類 ·256
12.7 優點和缺點 ·258
13 組合方法:集成算法和增量模型 263
13.1 集成算法 ·263
13.2 增量(說服)模型 ·268
13.3 總結 ·274
第五部分挖掘記錄之間的關係
14 聚類分析 280
14.1 引言 ·280
14.2 定義兩個觀測值之間的距離 ·284
14.3 定義兩個類之間的距離 ·288
14.4 系統(凝聚)聚類 ·290
14.5 非系統聚類:k-means 算法·299
第六部分時間序列預測
15 時間序列處理·310
15.1 引言 ·310
15.2 描述性與預測性建模 ·311
15.3 商業中的主流預測方法 ·312
15.4 時間序列的構成 ·312
15.5 數據分割和性能評價 ·316
16 回歸預測模型·321
16.1 趨勢模型 ·321
16.2 季節模型 ·327
16.3 趨勢和季節模型 ·330
16.4 自相關和ARIMA 模型 331
17 平滑法·350
17.1 引言 ·350
17.2 移動平均法 ·351
17.3 簡單指數平滑法 ·355
17.4 高級指數平滑法 ·358
第七部分案例
18 案例·372
18.1 查爾斯圖書俱樂部 ·372
18.2 德國信貸 ·378
18.3 太古軟體編目 ·382
18.4 政治說教 ·385
18.5 計程車訂單取消 ·388
18.6 浴皂的消費者細分 ·390
18.7 直郵籌款 ·393
18.8 破產預測 ·395
18.9 時間序列案例:預測公共運輸需求 ·398