基本介紹
- 中文名:基於Rattle的可視化數據挖掘技術
- 作者:張冬慧
- 出版時間:2017年8月
- 出版社:清華大學出版社
- ISBN:9787302474326
- 定價:39 元
內容簡介,圖書目錄,
內容簡介
數據挖掘技術近年來發展異常迅猛,已成為大數據時代最熱門的技術和研究熱點,不僅產生了大量不同類型、功能強大的數據挖掘算法,而且推動了眾多數據挖掘工具軟體的發展。在這些軟體中,R語言是數據挖掘領域最重要的軟體之一。Rattle是一種用於數據挖掘的R語言的圖形互動界面,或稱為可視化數據挖掘工具。Rattle給出了從數據整理到模型評價的完整解決方案。
本書主要介紹如何用Rattle包進行數據挖掘,全書共9章,通過大量精選實例,循序漸進、全面系統地講述數據挖掘過程。
本書不僅是從事數據挖掘和大數據分析工程技術人員開發相關係統的技術資料,也可作為學習數據挖掘和大數據分析等課程的參考用書。
圖書目錄
第1章緒論1
1.1數據挖掘的認識1
1.1.1為什麼要進行數據挖掘1
1.1.2數據挖掘過程1
1.1.3數據挖掘九大定律3
1.2R與Rattle3
1.2.1R語言3
1.2.2R語言的基本語法4
1.2.3R語言的優勢10
1.2.4Rattle包10
1.3本章小結12
第2章入門指南13
2.1概述13
2.2認識Rstudio13
2.2.1Rstudio的界面13
2.2.2R腳本編輯區14
2.2.3R命令控制台15
2.2.4工作空間16
2.2.5結果展示區18
2.3認識Rattle20
2.3.1Rattle的安裝與啟動20
2.3.2選項卡21
2.3.3工具列24基於Rattle的可視化數據挖掘技術2.3.4選單欄24
2.3.5屬性面板26
2.4本章小結26
第3章數據準備28
3.1概述28
3.2數據28
3.2.1術語28
3.2.2變數29
3.2.3數據集30
3.3可用數據30
3.4數據質量31
3.4.1數據質量概述31
3.4.2數據質量評估維度31
3.4.3影響數據質量的因素31
3.5數據匹配32
3.6數據倉庫33
3.7數據訪問34
3.8載入數據35
3.8.1載入CSV數據35
3.8.2載入資料庫36
3.8.3載入SPSS類型數據38
3.8.4載入自帶數據集38
3.8.5載入網頁數據38
3.8.6載入其他格式的數據39
3.9本章小結39
第4章數據理解41
4.1概述41
4.2匯總數據41
4.2.1查看數據的簡單信息41
4.2.2查看數據的細節信息43
4.2.3查看數據的分布信息43
4.2.4查看數據的缺失值44
4.3數據分布圖46
4.3.1數值型變數分布圖46
4.3.2分類變數分布圖50
4.3.3散點圖矩陣52
4.4相關分析53
4.4.1相關矩陣和相關圖53
4.4.2缺失值的相關分析55
4.4.3相關樹56
4.5主成分分析60
4.6互動式探索數據62
4.6.1安裝GGobi63
4.6.2安裝rggobi63
4.6.3實驗指導64
4.7本章小結64
第5章數據檢驗66
5.1概述66
5.2KS正態性檢驗67
5.3Wilcoxon檢驗68
5.4t檢驗70
5.5F檢驗72
5.6本章小結73
第6章數據變換75
6.1概述75
6.2取值範圍調整77
6.3缺失值填充79
6.4變數類型轉換81
6.4.1數值變數離散化81
6.4.2分類變數指標化81
6.4.3分類變數合併83
6.4.4分類變數和數值變數互相轉換83
6.4.5變數和數據的刪除83
6.5離群點數據的處理84
6.6本章小結86
第7章數據建模87
7.1概述87
7.2聚類模型96
7.2.1背景96
7.2.2Kmeans聚類96
7.2.3Ewkm聚類100
7.2.4層次聚類101
7.2.5雙向聚類105
7.3關聯規則挖掘106
7.3.1背景106
7.3.2基本術語107
7.3.3關聯規則分類108
7.3.4Apriori算法108
7.3.5實驗指導109
7.4傳統決策樹模型114
7.4.1背景114
7.4.2ID3算法115
7.4.3C4.5算法116
7.4.4實驗指導117
7.5隨機森林決策樹模型120
7.5.1背景120
7.5.2隨機森林算法121
7.5.3實驗指導122
7.6自適應選擇決策樹模型126
7.6.1背景126
7.6.2Boosting算法127
7.6.3Adaboost算法127
7.6.4實驗指導128
7.7SVM131
7.7.1背景131
7.7.2SVM算法131
7.7.3實驗指導133
7.8線性回歸模型134
7.8.1背景134
7.8.2一元線性回歸方法135
7.8.3實驗指導137
7.9神經網路模型138
7.9.1背景138
7.9.2人工神經網路模型139
7.9.3實驗指導142
7.10本章小結143
第8章模型評估147
8.1概述147
8.2數據集148
8.3混淆矩陣149
8.3.1二分類混淆矩陣149
8.3.2模型評價指標150
8.3.3多分類混淆矩陣151
8.4風險圖151
8.4.1風險圖的作用151
8.4.2實驗指導152
8.5ROC曲線154
8.5.1ROC曲線的定義154
8.5.2ROC曲線的作用154
8.5.3實驗指導155
8.6其他模型評估圖156
8.7本章小結157
第9章模型部署159
9.1概述159
9.2模型的套用159
9.3轉換為PMML161
9.4電商數據挖掘案例162
9.4.1背景162
9.4.2數據理解162
9.4.3數據準備163
9.4.4清洗數據166
9.4.5探索數據167
9.4.6數據建模172
9.5本章小結174
參考文獻175