內容簡介
本書使用R,結合大量實例,詳細介紹了數據挖掘的理論和分析方法。全書分為3部分:* 1部分簡單介紹了使用R進行數據挖掘的流程和數據挖掘的概要;* 2部分介紹了數據挖掘的10種常用方法,並在此基礎上使用R實際進行數據挖掘;第3部分結合實際的數據挖掘事例介紹了如何使用這些方法。本書適合數據挖掘的初學者,以及正在從事數據分析相關工作,想了解更多分析方法的讀者閱讀。
圖書目錄
第I部分 使用R進行數據挖掘的準備 1
* 1章 基於R的數據分析入門..............................................................3
1.1 R及RStudio的安裝..................................................................................4
1.2 RStudio的基本操作...................................................................................6
1.3 R語言入門.................................................................................................10
1.3.1 作為計算器使用的方法........................................................................10
1.3.2 向量——R的基本數據結構................................................................11
1.3.3 向量變數的賦值和運算........................................................................12
1.3.4 數組和矩陣.............................................................................................13
1.3.5 因子型.....................................................................................................15
1.3.6 列表.........................................................................................................16
1.3.7 數據框.....................................................................................................17
1.4 獲取外部數據............................................................................................18
1.5 數據匯總.....................................................................................................19
1.6 安裝程式包.................................................................................................21
1.7 基於dplyr程式包的數據框操作..........................................................22
1.8 數據的可視化............................................................................................25
1.8.1 柱狀圖.....................................................................................................26
1.8.2 直方圖.....................................................................................................29
1.8.3 箱形圖.....................................................................................................30
1.8.4 散點圖.....................................................................................................32
1.8.5 逐層繪製的圖.........................................................................................34
* 2章 數據挖掘概述..................................................................................36
2.1 大數據和數據挖掘...................................................................................36
2.2.1 業務理解(Business Understanding)..............................................37
2.2 CRISP-DM................................................................................................37
2.2.2 數據理解(Data Understanding).......................................................38
2.2.3 數據準備(Data Preparation)............................................................38
2.2.4 建模(Modeling)..................................................................................39
2.2.5 評估(Evaluation)................................................................................39
2.2.6 運用(Deployment).............................................................................39
2.3.1 數據的種類和建模................................................................................40
2.3 數據挖掘的方法........................................................................................40
2.3.2 預測和判別.............................................................................................41
2.3.3 分類和聚類.............................................................................................41
2.3.4 維規約.....................................................................................................41
2.3.5 規則發現.................................................................................................41
第II部分 數據挖掘的方法 43
第3章 回歸分析............................................................................................45
3.1 一元回歸分析............................................................................................45
3.2
多元回歸分析............................................................................................50
第4章
Logistic回歸分析..........................................................................60
4.1 數據準備.....................................................................................................60
4.2 使用一個解釋變數進行預測..................................................................61
4.3 使用兩個及以上的解釋變數進行預測................................................67
第5章 決策樹分析.......................................................................................71
5.1 使用分類樹的判別...................................................................................71
5.2 使用回歸樹的預測...................................................................................77
第6章 支持向量機.......................................................................................81
6.1
支持向量機的概念...................................................................................81
6.2 類別預測的例子........................................................................................83
6.3 數值預測的例子........................................................................................86
第7章 記憶基礎推理..................................................................................89
7.1 k* 近鄰法的概念....................................................................................89
7.2 變數的基準化和標準化..........................................................................94
第8章 聚類分析............................................................................................96
8.1 聚類分析的概念........................................................................................96
8.2 層次聚類分析............................................................................................97
8.3 執行層次聚類分析...................................................................................99
8.4 可視化進階...............................................................................................103
8.5 非層次聚類分析......................................................................................107
8.6 執行非層次聚類分析.............................................................................107
第9章 自組織映射....................................................................................110
9.1 自組織映射的概念.................................................................................110
9.2 基於
自組織映射的分析實例................................................................111
9.3 基於自組織映射的分類........................................................................120
* 10章 主成分分析.................................................................................129
10.1 主成分分析的概念...............................................................................129
10.2 對象數據的準備...................................................................................132
10.3 執行主成分分析...................................................................................135
* 11章 對應分析......................................................................................141
11.1 對應分析.................................................................................................141
11.2 多重對應分析........................................................................................144
* 12章 關聯規則分析............................................................................149
12.1 關聯規則及其評價指標......................................................................149
12.2 關聯規則分析的實例..........................................................................151
12.3 關聯規則分析的套用實例..................................................................159
第III部分 數據挖掘實戰 165
* 13章 對各種預測方法的評估........................................................167
13.1 關於預測方法的評估..........................................................................167
13.2 類別預測的判別方法的比較.............................................................168
13.2.1 Logistic回歸分析.............................................................................168
13.2.2 決策樹分析........................................................................................173
13.2.3 支持向量機........................................................................................175
13.3 數值預測方法的比較..........................................................................176
13.3.1
多元回歸分析....................................................................................176
13.3.2 決策樹分析........................................................................................178
13.3.3 支持向量機........................................................................................180
* 14章 用股價數據生成綜合指數...................................................181
14.1 獲取股價數據........................................................................................181
14.2 根據股價數據生成綜合指數.............................................................183
* 15章 SNS數據的分析......................................................................189
15.1 微博API.................................................................................................189
15.2 通過R獲取微博信息.........................................................................192
15.3 分詞及詞頻統計...................................................................................195
15.4 詞雲圖.....................................................................................................197