數據科學：理論、方法與R語言實踐

內容簡介

本書從實用的角度較為全面地展現了數據科學的主要內容，並結合大量的實際項目案例，利用R語言詳細地講解了數據項目的開發過程和關鍵技術。本書包括三個部分共11章的內容，主要介紹了數據科學項目的處理過程、選擇合適的建模方法，也討論了bagging算法、隨機森林、廣義加性模型、核和支持向量機等高級建模方法。此外，還討論了文檔編制和結果部署，以及如何向組織內不同的客群展現項目結果。本書適合作為高等院校高年級本科生和研究生及從事數據管理與分析工程技術人員的主要參考書。

目錄信息

譯者序

序言

前言

第一部分　數據科學引論

第1章　數據科學處理過程2

1.1　數據科學項目中的角色2

1.2　數據科學項目的階段4

1.2.1　制定目標5

1.2.2　收集和管理數據5

1.2.3　建立模型7

1.2.4　模型評價和批判8

1.2.5　展現和編制文檔9

1.2.6　模型部署和維護10

1.3　設定預期11

1.4　小結12

第2章　向R載入數據14

2.1　運用檔案中的數據14

2.1.1　在源自檔案或URL的良結構數據上使用R15

2.1.2　在欠結構數據上使用R17

2.2　在關係資料庫上使用R19

2.2.1　一個生產規模的示例20

2.2.2　從資料庫向R系統載入數據23

2.2.3　處理PUMS數據25

2.3　小結28

第3章　探索數據29

3.1　使用概要統計方法發現問題30

3.2　用圖形和可視化方法發現問題34

3.2.1　可視化檢測單變數的分布35

3.2.2　可視化檢測兩個變數間的關係42

3.3　小結51

第4章　管理數據52

4.1　清洗數據52

4.1.1　處理缺失值52

4.1.2　數據轉換56

4.2　為建模和驗證採樣61

4.2.1　測試集和訓練集的劃分61

4.2.2　創建一個樣本組列62

4.2.3　記錄分組63

4.2.4　數據溯源63

4.3　小結63

第二部分　建模方法

第5章　選擇和評價模型66

5.1　將業務問題映射到機器學習任務67

5.1.1　解決分類問題67

5.1.2　解決打分問題68

5.1.3　目標未知情況下的處理69

5.1.4　問題到方法的映射71

5.2　模型評價71

5.2.1　分類模型的評價72

5.2.2　打分模型的評價76

數據科學：理論、方法與R語言實踐

基本介紹

內容簡介

目錄信息

相關詞條

熱門詞條