基本介紹
- 書名:數據挖掘算法與R語言實現
- 作者:肖海軍,胡鵬
- ISBN:9787121339370
- 頁數:180頁
- 定價:¥45.0
- 出版時間:2018-11
- 開本:16開
圖書信息,內容簡介,圖書目錄,
圖書信息
作譯者:肖海軍,胡鵬
出版時間:2018-11
千 字 數:288
版次:01-01
頁 數:180
開本:16開
裝幀:
I S B N :9787121339370
紙質書定價:¥45.0
內容簡介
本書在介紹R軟體基本功能的基礎上,介紹了數據挖掘十大經典算法的基本原理及相應的R語言實現範例,旨在使讀者能夠仿照範例快速掌握大數據分析的方法,從高維海量數據中挖掘有用的信息,使用合適的數據挖掘算法,解決實際問題。全書內容共12章,分別介紹R軟體的使用方法、C4.5算法、k-means算法、CART算法、Apriori算法、EM算法、PageRank算法、AdaBoost算法、kNN算法、Naive Bayes算法、SVM算法及各算法的案例分析。本書理論部分簡單明了,所有程式均經過R軟體實際運行。本書各章自成體系,讀者既可從頭逐章學習,也可隨意挑選自己需要的章節學習。本書既可作為高年級本科生、研究生相關課程的教材,也可作為不同領域數據分析人員的工具書,還可作為零基礎讀者的自學教材。
圖書目錄
第1章 R軟體的使用方法 1
1.1 R軟體介紹和安裝 1
1.1.1 R軟體介紹 1
1.1.2 R軟體的安裝 1
1.1.3 R studio的安裝 2
1.2 R語言基本運算 3
1.2.1 R語言的數值運算 3
1.2.2 R語言的向量 5
1.2.3 R語言的向量運算 6
1.3 R語言缺失數據 7
1.3.1 R語言缺失數據類型 7
1.3.2 R語言缺失數據識別 7
1.3.3 R語言缺失數據處理 8
1.4 矩陣的運算 8
1.4.1 矩陣建立 8
1.4.2 矩陣計算 10
1.4.3 矩陣分解 11
1.5 列表和數據框 12
1.5.1 列表介紹 12
1.5.2 數據框介紹 13
1.6 R軟體的數據讀/寫 14
1.7 R軟體包介紹 15
1.7.1 包的基礎知識 15
1.7.2 自動安裝包 15
1.7.3 通過硬碟載入包 16
1.7.4 常見包介紹 16
1.8 R語言的函式 16
1.8.1 循環結構 16
1.8.2 條件執行結構 17
1.8.3 自定義函式 18
1.9 R軟體繪圖功能介紹 19
1.9.1 高級繪圖函式 20
1.9.2 低級繪圖函式 22
1.9.3 用ggplot2包進行繪圖 25
第2章 C4.5算法 30
2.1 算法簡介 30
2.2 算法基本原理 30
2.3 算法的R語言實現 33
2.3.1 ctree函式介紹 33
2.3.2 C4.5決策樹的R語言實例 33
2.4 小結 35
參考文獻 36
第3章 k-means算法 37
3.1 算法簡介 37
3.2 算法基本原理 37
3.3 算法的R語言實現 39
3.3.1 kmeans函式介紹 39
3.3.2 k-means聚類的R語言實例 39
3.4 小結 41
參考文獻 42
第4章 CART算法 44
4.1 算法簡介 44
4.2 算法基本原理 44
4.2.1 CART算法的建樹 44
4.2.2 CART算法的剪枝 45
4.2.3 算法過程實例 46
4.3 算法的R語言實現 48
4.3.1 rpart函式介紹 48
4.3.2 CART決策樹的R語言實例 48
4.3.3 rpart函式的補充說明 50
4.4 小結 52
參考文獻 52
第5章 Apriori算法 53
5.1 算法簡介 53
5.2 算法基本原理 53
5.2.1 挖掘頻繁模式和關聯規則 53
5.2.2 Apriori算法 55
5.2.3 AprioriTid算法 61
5.2.4 挖掘順序模式 64
5.2.5 Apriori算法的一種改進算法 65
5.3 算法的R語言實現算法 66
5.3.1 apriori函式介紹 66
5.3.2 Apriori模型 66
5.4 小結 68
參考文獻 68
第6章 EM算法 70
6.1 算法簡介 70
6.2 算法基本原理 71
6.2.1 基礎理論 71
6.2.2 算法過程實例 71
6.3 算法的R語言實現 76
6.3.1 mclust函式介紹 76
6.3.2 EM標準模型的R語言實現 77
6.3.3 存在噪聲的EM算法的R語言實現 79
6.3.4 EM算法套用於高斯混合模型(GMM) 81
6.3.5 EM算法套用於Iris數據集 84
6.4 小結 84
參考文獻 85
第7章 PageRank算法 86
7.1 算法簡介 86
7.2 算法基本原理 86
7.3 算法的R語言實現 89
7.3.1 page.rank函式介紹 89
7.3.2 igraph包實現PageRank算法 89
7.3.3 自定義PageRank算法的R語言實現 90
7.3.4 補充實例 91
7.4 小結 95
參考文獻 96
第8章 AdaBoost算法 97
8.1 算法簡介 97
8.2 算法基本原理 97
8.2.1 Boosting算法 97
8.2.2 AdaBoost算法 98
8.2.3 算法過程實例 101
8.3 算法的R語言實現 102
8.3.1 boosting函式介紹 102
8.3.2 R語言實例 102
8.4 小結 104
參考文獻 104
第9章 kNN算法 105
9.1 算法簡介 105
9.2 算法基本原理 105
9.2.1 算法描述 105
9.2.2 算法流程 107
9.3 算法的R語言實現 108
9.3.1 knn函式介紹 108
9.3.2 利用class包中的knn函式建立模型 108
9.3.3 kNN算法套用於Iris數據集 109
9.3.4 kNN算法套用於Breast數據集 111
9.4 小結 113
參考文獻 114
第10章 Naive Bayes算法 115
10.1 算法簡介 115
10.2 算法基本原理 115
10.2.1 基礎理論 115
10.2.2 算法過程實例 118
10.3 算法的R語言實現 120
10.3.1 naiveBayes函式介紹 120
10.3.2 利用e1071包中的naiveBayes函式建立模型 120
10.3.3 算法拓展——其他改進的Naive Bayes算法 121
10.4 小結 123
參考文獻 123
第11章 SVM算法 125
11.1 算法簡介 125
11.2 算法基本原理 125
11.2.1 基礎理論 125
11.2.2 軟間隔最佳化 127
11.2.3 核映射 129
11.2.4 SVM算法的過程 130
11.2.5 SVC算法過程實例 130
11.3 算法的R語言實現 132
11.3.1 svm函式介紹 132
11.3.2 標準分類模型 133
11.3.3 多分類模型 133
11.3.4 SVM回歸 134
11.3.5 SVM拓展包(kernlab包) 135
11.3.6 SVM算法套用於Iris數據集(e1071包) 135
11.3.7 SVM算法套用於Iris數據集(kernlab包) 136
11.4 小結 137
參考文獻 138
第12章 案例分析 139
12.1 關聯規則案例分析 139
12.1.1 問題描述 139
12.1.2 R語言實現過程 139
12.1.3 不同參數的Apriori模型 141
12.1.4 小結 145
12.2 kNN算法案例分析 145
12.2.1 問題描述 145
12.2.2 R語言實現過程 145
12.2.3 小結 148
12.3 Naive Bayes算法案例分析 149
12.3.1 問題描述 149
12.3.2 R語言實現過程 149
12.3.3 小結 152
12.4 CART算法案例分析 152
12.4.1 問題描述 152
12.4.2 R語言實現過程 152
12.4.3 小結 159
12.5 AdaBoost算法案例分析 159
12.5.1 問題描述 159
12.5.2 R語言實現過程 159
12.5.3 小結 161
12.6 SVM算法案例分析 162
12.6.1 問題描述 162
12.6.2 R語言實現過程 162
12.6.3 小結 167