內容簡介
隨著大數據的概念變得越來越流行,對數據的探索、分析和預測成為大數據分析領域的基本技能之一。作為探索和分析數據的基本理論和工具,機器學習和數據挖掘成為時下熱門的技術。R作為功能強大並且免費的數據分析工具,在數據分析領域獲得了越來越多用戶的青睞。
本書通過清晰和實用的案例來探索機器學習在現實世界中的套用,不拘泥於機器學習,既適用於機器學習的初學者,也適用於具有一定經驗的讀者。
通過閱讀本書,你將學到:
用R準備用於機器學習的數據
用R進行數據探索和數據可視化
用k近鄰方法進行數據分類
用樸素貝葉斯方法進行數據分類
用決策樹、規則和支持向量機進行預測
用線性回歸預測數值型數據
用神經網路對數據建模
用購物籃分析的關聯規則找出數據中的模式
對數據聚類進行市場區隔
圖書目錄
推薦序
譯者序
前言
關於審稿人
第1章 機器學習簡介1
1.1 機器學習的起源1
1.2 機器學習的使用與濫用3
1.2.1 機器學習的成功使用3
1.2.2 機器學習的限制4
1.2.3 機器學習的倫理方面5
1.3 機器如何學習6
1.3.1 數據存儲7
1.3.2 抽象化7
1.3.3 一般化9
1.3.4 評估10
1.4 實踐中的機器學習11
1.4.1 輸入數據的類型11
1.4.2 機器學習算法的類型12
1.4.3 為輸入數據匹配算法14
1.5 使用R進行機器學習15
1.5.1 安裝R添加包15
1.5.2 載入和卸載R添加包16
1.6 總結16
第2章 數據的管理和理解18
2.1 R數據結構18
2.1.1 向量18
2.1.2 因子20
2.1.3 列表21
2.1.4 數據框23
2.1.5 矩陣和數組25
2.2 用R管理數據27
2.2.1 保存、載入和移除R數據結構27
2.2.2 用CSV檔案導入和保存數據28
2.3 探索和理解數據29
2.3.1 探索數據的結構29
2.3.2 探索數值變數30
2.3.3 探索分類變數38
2.3.4 探索變數之間的關係40
2.4 總結43
第3章 懶惰學習—使用近鄰分類44
3.1 理解近鄰分類44
3.1.1 kNN算法45
3.1.2 為什麼kNN算法是懶惰的50
3.2 例子—用kNN算法診斷乳腺癌51
3.2.1 第1步—收集數據51
3.2.2 第2步—探索和準備數據52
3.2.3 第3步—基於數據訓練模型55
3.2.4 第4步—評估模型的性能56
3.2.5 第5步—提高模型的性能57
3.3 總結59
第4章 機率學習—樸素貝葉斯分類60
4.1 理解樸素貝葉斯60
4.1.1 貝葉斯方法的基本概念61
4.1.2 樸素貝葉斯算法65
4.2 例子—基於貝葉斯算法的手機垃圾簡訊過濾69
4.2.1 第1步—收集數據69
4.2.2 第2步—探索和準備數據70
4.2.3 第3步—基於數據訓練模型81
4.2.4 第4步—評估模型的性能82
4.2.5 第5步—提高模型的性能83
4.3 總結84
第5章 分而治之—套用決策樹和規則進行分類85
5.1 理解決策樹85
5.1.1 分而治之86
5.1.2 C5.0決策樹算法89
5.2 例子—使用C5.0決策樹識別高風險銀行貸款91
5.2.1 第1步—收集數據92
5.2.2 第2步—探索和準備數據92
5.2.3 第3步—基於數據訓練模型94
5.2.4 第4步—評估模型的性能97
5.2.5 第5步—提高模型的性能97
5.3 理解分類規則101
5.3.1 獨立而治之101
5.3.2 1R算法103
5.3.3 RIPPER算法104
5.3.4 來自決策樹的規則105
5.3.5 什麼使決策樹和規則貪婪106
5.4 例子—套用規則學習算法識別有毒的蘑菇108
5.4.1 第1步—收集數據108
5.4.2 第2步—探索和準備數據108
5.4.3 第3步—基於數據訓練模型109
5.4.4 第4步—評估模型的性能111
5.4.5 第5步—提高模型的性能112
5.5 總結114
第6章 預測數值型數據—回歸方法115
6.1 理解回歸115
6.1.1 簡單線性回歸117
6.1.2 普通最小二乘估計119
6.1.3 相關性120
6.1.4 多元線性回歸121
6.2 例子—套用線性回歸預測醫療費用124
6.2.1 第1步—收集數據124
6.2.2 第2步—探索和準備數據125
6.2.3 第3步—基於數據訓練模型129
6.2.4 第4步—評估模型的性能131
6.2.5 第5步—提高模型的性能132
6.3 理解回歸樹和模型樹134
6.4 例子—用回歸樹和模型樹估計葡萄酒的質量136
6.4.1 第1步—收集數據137
6.4.2 第2步—探索和準備數據137
6.4.3 第3步—基於數據訓練模型139
6.4.4 第4步—評估模型的性能142
6.4.5 第5步—提高模型的性能143
6.5 總結145
第7章 黑箱方法—神經網路和支持向量機147
7.1理解神經網路147
7.1.1從生物神經元到人工神經元148
7.1.2激活函式149
7.1.3網路拓撲151
7.1.4用後向傳播訓練神經網路154
7.2例子—用人工神經網路對混凝土的強度進行建模155
7.2.1第1步—收集數據155
7.2.2第2步—探索和準備數據156
7.2.3第3步—基於數據訓練模型157
7.2.4第4步—評估模型的性能159
7.2.5第5步—提高模型的性能159
7.3理解支持向量機161
7.3.1用超平面分類161
7.3.2對非線性空間使用核函式164
7.4例子—用支持向量機進行光學字元識別166
7.4.1第1步—收集數據166
7.4.2第2步—探索和準備數據167
7.4.3第3步—基於數據訓練模型168
7.4.4第4步—評估模型的性能170
7.4.5第5步—提高模型的性能171
7.5總結172
第8章 探尋模式—基於關聯規則的購物籃分析173
8.1理解關聯規則173
8.1.1用於關聯規則學習的Apriori算法174
8.1.2度量規則興趣度—支持度和置信度175
8.1.3用Apriori原則建立規則176
8.2例子—用關聯規則確定經常一起購買的食品雜貨177
8.2.1第1步—收集數據177
8.2.2第2步—探索和準備數據178
8.2.3第3步—基於數據訓練模型183
8.2.4第4步—評估模型的性能185
8.2.5第5步—提高模型的性能187
8.3總結190
第9章 尋找數據的分組—k均值聚類191
9.1理解聚類191
9.1.1聚類—一種機器學習任務192
9.1.2k均值聚類算法193
9.2例子—用k均值聚類探尋青少年市場區隔198
9.2.1第1步—收集數據199
9.2.2第2步—探索和準備數據199
9.2.3第3步—基於數據訓練模型203
9.2.4第4步—評估模型的性能205
9.2.5第5步—提高模型的性能207
9.3總結208