數據挖掘與預測分析(第2版)

數據挖掘與預測分析(第2版)

《數據挖掘與預測分析(第2版)》是2017年清華大學出版社出版的圖書,作者是Daniel T. Larose、Chantal D. Larose 。

基本介紹

  • 書名:數據挖掘與預測分析(第2版)
  • 作者:Daniel T. Larose,Chantal D. Larose  
  • 譯者:王念濱 宋敏 裴大茗 
  • ISBN:9787302459873
  • 定價:99.80
  • 出版社:清華大學出版社 
  • 出版時間:2017.02.01
  • 裝幀:簡裝
  • 印次:1-1
  • 印刷日期:2017.02.06
圖書簡介,圖書目錄,作者介紹,

圖書簡介

《數據挖掘與預測分析(第2版)》提供了從數據準備到探索性數據分析、數據建模及模型評估等整個數據分析過程的內容。《數據挖掘與預測分析(第2版)》不僅提供了理解軟體底層算法的“白盒”方法,而且提供了能夠使讀者利用現實世界數據集開展數據挖掘與預測分析的套用方法。

圖書目錄

第Ⅰ部分 數據準備
第1章 數據挖掘與預測分析概述 3
1.1 什麼是數據挖掘和預測分析 3
1.2 需求:數據挖掘技術人員 4
1.3 數據挖掘離不開人的參與 5
1.4 跨行業數據挖掘標準過程:
CRISP-DM 6
1.5 數據挖掘的謬誤 8
1.6 數據挖掘能夠完成的任務 9
1.6.1 描述 9
1.6.2 評估 10
1.6.3 預測 11
1.6.4 分類 11
1.6.5 聚類 13
1.6.6 關聯 14
R語言開發園地 15
R參考文獻 16
練習 16
第2章 數據預處理 17
2.1 需要預處理數據的原因 17
2.2 數據清理 18
2.3 處理缺失數據 19
2.4 識別錯誤分類 22
2.5 識別離群值的圖形方法 22
2.6 中心和散布度量 24
2.7 數據變換 26
2.8 min-max規範化 26
2.9 Z-score標準化 27
2.10 小數定標規範化 28
2.11 變換為正態數據 28
2.12 識別離群值的數值方法 34
2.13 標誌變數 35
2.14 將分類變數轉換為數值變數 35
2.15 數值變數分箱 36
2.16 對分類變數重新劃分類別 37
2.17 添加索引欄位 37
2.18 刪除無用變數 38
2.19 可能不應該刪除的變數 38
2.20 刪除重複記錄 39
2.21 ID欄位簡述 39
R語言開發園地 39
R參考文獻 45
練習 45
第3...
第3章探索性數據分析49
3.1假設檢驗與探索性數據分析49
3.2了解數據集49
3.3探索分類變數52
3.4探索數值變數58
3.5探索多元關係62
3.6選擇感興趣的數據子集作進一步研究64
3.7使用EDA發現異常欄位64
3.8基於預測值分級65
3.9派生新變數:標誌變數67
3.10派生新變數:數值變數69
3.11使用EDA探測相關聯的預測
變數70
3.12EDA概述73
R語言開發園地73
R參考文獻80
練習80
第4章降維方法83
4.1數據挖掘中降維的必要性83
4.2主成分分析84
4.3將主成分分析套用於房屋
數據集87
4.4應提取多少個主成分91
4.4.1特徵值標準91
4.4.2解釋變異的比例標準92
4.4.3最小共性標準92
4.4.4坡度圖示準92
4.5主成分描述94
4.6共性96
4.7主成分驗證97
4.8因子分析法98
4.9因子分析法在成年人數據集中的
套用99
4.10因子旋轉101
4.11用戶自定義合成104
4.12用戶自定義合成的示例105
R語言開發園地106
R參考文獻110
練習111
第Ⅱ部分統計分析
第5章單變數統計分析117
5.1數據知識發現中的數據挖掘
任務117
5.2用於估計和預測的統計方法117
5.3統計推理118
5.4我們對評估的確信程度如何119
5.5均值的置信區間估計120
5.6如何減少誤差範圍121
5.7比例的置信區間估計122
5.8均值的假設檢驗123
5.9拒絕零假設的證據力度的
評估125
5.10使用置信區間執行假設檢驗126
5.11比例的假設檢驗127
R語言開發園地128
R參考文獻129
練習129
第6章多元統計133
6.1描述均值差異的兩樣例t-檢驗
方法133
6.2判斷總體差異的兩樣例
Z-檢驗134
6.3比例均勻性的測試135
6.4多元數據擬合情況的
卡方檢驗137
6.5方差分析138
R語言開發園地141
R參考文獻143
練習143
第7章數據建模準備145
7.1有監督學習與無監督學習145
7.2統計方法與數據挖掘方法146
7.3交叉驗證146
7.4過度擬合147
7.5偏差-方差權衡148
7.6平衡訓練數據集150
7.7建立基線性能151
R語言開發園地152
R參考文獻153
練習153
第8章簡單線性回歸155
8.1簡單線性回歸示例155
8.2外推的危險161
8.3回歸有用嗎?係數的確定162
8.4估計標準誤差166
8.5相關係數r167
8.6簡單線性回歸的方差分析表169
8.7離群點、高槓桿率點與有影響
的觀察點170
8.8回歸方程概括178
8.9回歸假設驗證179
8.10回歸推理184
8.11x與y之間關係的t-檢驗185
8.12回歸直線斜率的置信區間187
8.13相關係數ρ的置信區間188
8.14給定均值的置信區間190
8.15給定隨機選擇值的預測區間191
8.16獲得線性特性的變換194
8.17博克斯-考克斯變換199
R語言開發園地199
R參考文獻205
練習205
第9章多元回歸與模型構建213
9.1多元回歸示例213
9.2總體多元回歸方程218
9.3多元回歸推理219
9.3.1y與xi之間關係的t-檢驗219
9.3.2營養等級與含糖量之間關係
的t-檢驗220
9.3.3營養等級與纖維含量之間
關係的t-檢驗220
9.3.4總體回歸模型顯著性的
F-檢驗221
9.3.5營養等級與含糖量和纖維
含量之間關係的F-檢驗222
9.3.6特定係數βi的置信區間223
9.3.7(在給定x1,x2,…,xm的情況下)y
的均值的置信區間223
9.3.8(在給定x1,x2,…,xm的情況下)
隨機選擇的y值的預測區間223
9.4利用指示變數的包含範疇型預測變數的回歸224
9.5調整R2:懲罰包含無用預測變數的模型230
9.6序列平方和231
9.7多重共線性233
9.8變數選擇方法239
9.8.1有偏F-檢驗239
9.8.2前向選擇過程240
9.8.3反向刪除過程241
9.8.4逐步選擇過程241
9.8.5最佳子集過程241
9.8.6“所有可能子集”過程242
9.9油耗數據集242
9.10變數選擇方法的套用243
9.10.1套用於油耗數據集的前向
選擇過程244
9.10.2套用於油耗數據集的後向
刪除過程245
9.10.3套用於油耗數據集的逐步選擇過程246
9.10.4套用於油耗數據集的最佳子集過程246
9.10.5Mallows’Cp統計量247
9.11將主成分作為預測變數進行
多元回歸251
R語言開發園地255
R參考文獻265
練習265
第Ⅲ部分分類
第10章K-最近鄰算法273
10.1分類任務273
10.2k-最近鄰算法274
10.3距離函式276
10.4組合函式279
10.4.1簡單權重投票方式279
10.4.2加權投票279
10.5量化屬性的相關性:軸伸縮280
10.6資料庫方面的考慮281
10.7將k-最近鄰算法用於評估和
預測281
10.8k值的選擇282
10.9利用IBM/SPSS建模工具套用
k-最近鄰算法283
R語言開發園地284
R參考文獻286
練習286
第11章決策樹289
11.1決策樹是什麼289
11.2使用決策樹的要求291
11.3分類與回歸樹291
11.4C4.5算法297
11.5決策規則302
11.6比較C5.0和CART算法套用
到實際的數據303
R語言開發園地306
R參考文獻307
練習308
第12章神經元網路311
12.1輸入和輸出編碼312
12.2神經元網路用於評估和預測313
12.3神經元網路的簡單示例314
12.4sigmoid激活函式316
12.5反向傳播317
12.6梯度下降法317
12.7反向傳播規則318
12.8反向傳播示例319
12.9終止條件320
12.10學習率321
12.11動量項322
12.12敏感性分析323
12.13神經元網路建模套用324
R語言開發園地326
R參考文獻328
練習328
第13章logistic回歸331
13.1logistic回歸簡單示例331
13.2最大似然估計333
13.3解釋logistic回歸的輸出334
13.4推理:這些預測有顯著性嗎335
13.5機率比比率與相對風險337
13.6對二分logistic回歸預測的
解釋339
13.7對套用於多元預測變數的
logistic回歸的解釋342
13.8對套用於連續型預測變數的
logistic回歸的解釋346
13.9線性假設351
13.10零單元問題353
13.11多元logistic回歸355
13.12引入高階項處理非線性359
13.13logistic回歸模型的驗證366
13.14WEKA:套用logistic回歸的
實踐分析370
R語言開發園地374
R參考文獻380
練習380
第14章樸素貝葉斯與貝葉斯網路385
14.1貝葉斯方法385
14.2最大後驗(MAP)分類387
14.3後驗機率比391
14.4數據平衡393
14.5樸素貝葉斯分類394
14.6解釋對數後驗機率比397
14.7零單元問題398
14.8樸素貝葉斯分類中的數值型
預測變數399
14.9WEKA:使用樸素貝葉斯開展
分析402
14.10貝葉斯信念網路406
14.11衣物購買示例407
14.12利用貝葉斯網路發現機率409
R語言開發園地413
R參考文獻417
練習417
第15章模型評估技術421
15.1用於描述任務的模型評估
15.2用於評估和預測任務的模型
評估技術422
15.3用於分類任務的模型評估
方法423
15.4準確率和總誤差率425
15.5靈敏性和特效性426
15.6假正類率和假負類率427
15.7真正類、真負類、假正類、
假負類的比例427
15.8通過誤分類成本調整來反映
現實關注點429
15.9決策成本/效益分析430
15.10提升圖表和增益圖表431
15.11整合模型評估與模型建立434
15.12結果融合:套用一系列
模型435
R語言開發園地436
R參考文獻436
練習437
第16章基於數據驅動成本的
成本-效益分析439
16.1在行調整條件下的決策
不變性439
16.2正分類標準440
16.3正分類標準的示範442
16.4構建成本矩陣444
16.5在縮放條件下的決策不變性445
16.6直接成本和機會成本446
16.7案例研究:基於數據驅動誤
分類成本的成本-效益分析446
16.8再平衡作為誤分類成本的
代理450
R語言開發園地452
R參考文獻455
練習455
第17章三元和k元分類模型的成本-
效益分析459
17.1三元目標的分類評估變數459
17.2三元分類評估度量在貸款審批問題中的套用462
17.3三元貸款分類問題的數據驅動成本-效益分析466
17.4比較使用/不使用數據驅動誤分類成本的CART模型467
17.5一般的k元目標的分類評估
度量470
17.6k元分類中評估度量和數據驅動誤分類成本的示例472
R語言開發園地474
R參考文獻475
練習475
第18章分類模型的圖形化評估477
18.1回顧提升圖表和增益圖表477
18.2使用誤分類成本的提升圖表
和增益圖表477
18.3回響圖表479
18.4利潤圖表479
18.5投資回報(ROI)圖表482
R語言開發園地482
R參考文獻484
練習484
第Ⅳ部分聚類
第19章層次聚類和k-均值聚類489
19.1聚類任務489
19.2層次聚類方法491
19.3單一鏈聚類492
19.4完全鏈聚類493
19.5k-均值聚類494
19.6k-均值聚類實操示例495
19.7k-均值算法執行中MSB、MSE和偽-F的行為498
19.8SASEnterpriseMiner中k-均值算法的套用499
19.9使用簇成員關係來預測客戶
流失501
R語言開發園地502
R參考文獻503
練習504
第20章Kohonen網路505
20.1自組織映射505
20.2Kohonen網路507
20.3Kohonen網路學習示例508
20.4簇有效性511
20.5使用Kohonen網路進行聚類
套用511
20.6解釋簇512
20.7將簇成員關係作為下游數據
挖掘模型的輸入517
R語言開發園地518
R參考文獻520
練習520
第21章BIRCH聚類521
21.1BIRCH聚類的理論基礎521
21.2簇特徵522
21.3簇特徵樹523
21.4階段1:構建CF樹523
21.5階段2:聚類子簇525
21.6BIRCH聚類示例之階段1:
構建CF樹525
21.7BIRCH聚類示例之階段2:
聚類子簇530
21.8候選聚類解決方案的評估530
21.9案例研究:在銀行貸款數據集
上套用BIRCH聚類531
21.9.1案例研究第1課:對於
任意聚類算法避免高度
相關的輸入532
21.9.2案例研究第2課:不同的
排序可能會導致不同的
簇數目535
R語言開發園地537
R參考文獻538
練習538
第22章度量簇的優劣541
22.1度量簇優劣的基本原理541
22.2輪廓方法541
22.3輪廓值示例542
22.4Iris數據集的輪廓值分析544
22.5偽-F統計方法547
22.6偽-F統計示例549
22.7將偽-F統計套用於Iris
數據集550
22.8簇驗證551
22.9將簇驗證方法套用於貸款
數據集551
R語言開發園地554
R參考文獻556
練習557
第Ⅴ部分關聯規則
第23章關聯規則561
23.1親和度分析與購物籃分析561
23.2支持度、可信度、頻繁項集和
先驗屬性564
23.3先驗算法工作原理(第1部
分)——建立頻繁項集565
23.4先驗算法工作原理(第2部
分)——建立關聯規則566
23.5從標誌數據擴展到分類數據569
23.6信息理論方法:廣義規則推理
方法570
23.7關聯規則不易做好571
23.8度量關聯規則可用性的方法573
23.9關聯規則是監督學習還是
無監督學習574
23.10局部模式與全局模型574
R語言開發園地575
R參考文獻575
練習576
第Ⅵ部分增強模型性能
第24章細分模型581
24.1細分建模過程581
24.2利用EDA識別分段的細分
建模583
24.3利用聚類方法識別分段的
細分建模585
R語言開發園地589
R參考文獻591
練習591
第25章集成方法:bagging和
boosting593
25.1使用集成分類模型的理由593
25.2偏差、方差與噪聲594
25.3適合採用bagging的場合595
25.4bagging596
25.5boosting599
25.6使用IBM/SPSS建模器套用
bagging和boosting602
參考文獻603
R語言開發園地604
R參考文獻605
練習606
第26章模型投票與趨向平均609
26.1簡單模型投票609
26.2其他投票方法610
26.3模型投票過程611
26.4模型投票的套用612
26.5什麼是趨向平均616
26.6趨向平均過程616
26.7趨向平均的套用618
R語言開發園地619
R參考文獻621
練習622
第Ⅶ部分更多主題
第27章遺傳算法627
27.1遺傳算法簡介627
27.2基因算法的基本框架628
27.3遺傳算法的簡單示例629
27.3.1第1次疊代629
27.3.2第2次疊代631
27.4改進及增強:選擇631
27.5改進及增強:交叉633
27.5.1多點交叉633
27.5.2通用交叉634
27.6實值變數的遺傳算法634
27.6.1單一算術交叉635
27.6.2簡單算術交叉635
27.6.3完全算術交叉635
27.6.4離散交叉635
27.6.5常態分配突變635
27.7利用遺傳算法訓練神經元
網路636
27.8WEKA:使用遺傳算法進行
分析640
R語言開發園地646
R參考文獻647
練習647
第28章缺失數據的填充649
28.1缺失數據填充的必要性649
28.2缺失數據填充:連續型變數650
28.3填充的標準誤差653
28.4缺失值填充:範疇型變數653
28.5缺失的處理模式654
參考文獻655
R語言開發園地655
R參考文獻657
練習658
第Ⅷ部分案例研究:對直郵營
銷的回響預測
第29章案例研究,第1部分:業務
理解、數據預處理和探索性
數據分析661
29.1數據挖掘的跨行業標準661
29.2業務理解階段662
29.3數據理解階段,第一部分:
熟悉數據集663
29.4數據準備階段667
29.4.1消費金額為負值的情況667
29.4.2實現正態性或對稱性的
轉換669

作者介紹

Daniel T. Larose博士,美國中康乃狄克州立大學數學科學教授,數據挖掘項目負責人。出版與數據挖掘、Web挖掘和統計理論等相關論著多本。他也是《微軟》、《福布斯》雜誌以及《經濟學人》雜誌等數據挖掘與統計分析領域的顧問。
Chantal D. Larose是美國康乃狄克大學的在讀博士。其研究領域包括缺失數據填補以及基於模型的聚類等。她已獲得美國新帕爾茲紐約州立大學商學院決策科學領域助理教授的職位。

相關詞條

熱門詞條

聯絡我們