機器學習與R語言

內容簡介

本書共12章：第1章介紹機器學習的基本概念和理論，並介紹用於機器學習的R軟體環境的準備；第2章介紹如何套用R來管理數據，進行數據的探索分析和數據可視化；第3～9章介紹典型的機器學習算法，包括k近鄰分類算法、樸素貝葉斯算法、決策樹和規則樹、回歸預測、黑盒算法——神經網路和支持向量機、關聯分析、k均值聚類，並給出大量的實際案例和詳細的分析步驟，例如乳腺癌的判斷、垃圾簡訊的過濾、貸款違約的預測、毒蘑菇的判別、醫療費用的預測、建築用混凝土強度的預測、光學字元的識別、超市購物籃關聯分析以及市場區隔等；第10章介紹模型性能評價的原理和方法；第11章給出提高模型性能的幾種常用方法；第12章討論用R進行機器學習時可能遇到的一些高級專題，如特殊形式的數據、大數據集的處理、並行計算和GPU計算等技術。

圖書目錄

譯者序

前　言

第1章　機器學習簡介 1

1.1　機器學習的起源 1

1.2　機器學習的使用與濫用 2

1.2.1　機器學習的成功套用 3

1.2.2　機器學習的限制 4

1.2.3　機器學習的倫理方面 5

1.3　機器如何學習 7

1.3.1　數據存儲 8

1.3.2　抽象化 8

1.3.3　一般化 10

1.3.4　評估 11

1.4　實踐中的機器學習 12

1.4.1　輸入數據的類型 13

1.4.2　機器學習算法的類型 14

1.4.3　為輸入數據匹配算法 15

1.5　使用R進行機器學習 16

1.5.1　安裝R添加包 17

1.5.2　載入和卸載R添加包 18

1.5.3　安裝RStudio 18

1.6　總結 19

第2章　管理和理解數據 20

2.1　R數據結構 20

2.1.1　向量 20

2.1.2　因子 22

2.1.3　列表 23

2.1.4　數據框 25

2.1.5　矩陣和數組 27

2.2　用R管理數據 28

2.2.1　保存、載入和移除R數據結構 29

2.2.2　從CSV檔案導入數據和將數據保存為CSV檔案 29

2.3　探索和理解數據 31

2.3.1　探索數據的結構 31

2.3.2　探索數值變數 32

2.3.3　探索分類變數 40

2.3.4　探索變數之間的關係 41

2.4　總結 44

第3章　懶惰學習——使用近鄰分類 46

3.1　理解近鄰分類 46

3.1.1　k近鄰算法 47

3.1.2　為什麼k-NN算法是懶惰的 52

3.2　例子—用k-NN算法診斷乳腺癌 53

3.2.1　第1步—收集數據 53

3.2.2　第2步—探索和準備數據 54

機器學習與R語言

基本介紹

內容簡介

圖書目錄

相關詞條

熱門詞條