書籍信息
作者:[美]尼娜·祖梅爾(Nina Zumel),約翰·蒙特(John Mount)著 張駿溫 許向東 張博遠 譯
zhua曲子白渡白顆
定價:139元
印次:1-1
ISBN:9787302595441
出版日期:2022.01.01
印刷日期:2021.12.22
內容簡介
有依據的決策對於成功至關重要。將正確的數據分析技術套用到精心籌備的業務數據中有助於做出準確預測、確定趨勢,以及提前發現問題。R數據分析平台提供了許多高效率的工具,可用來處理8常的數據分析和機器學習任務。 《R數據科學實戰》(第2版)是一本基於任務的教程,引導讀者使用R語言參與幾十個實用的數據分析實踐。本書重點介紹讀者在工作中將面臨的最重要任務,對於商業分析師和數據科學家來說都非常實用。因為數據只有在可理解的情況下才有用,所以讀者也可以在表格中找到組織和展示數據的妙招,以及快速生動的可視化效果。 主要內容 ●商務級統計分析 ●有效的數據展示 最實用的R工具 ●解釋復 雜的預測模型
圖書目錄
第Ⅰ部分 數據科學引論
第1 章 數據科學處理過程 2
1.1 數據科學項目中的角色 3
1.2 數據科學項目的階段 5
1.2.1 制定目標 6
1.2.2 收集和管理數據 7
1.2.3 建立模型 9
1.2.4 評價和評判模型 10
1.2.5 展現結果和編制文檔 12
1.2.6 部署模型 14
1.3 設定預期 14
1.4 小結 15
第2 章 從R和數據入門 16
2.1 R入門 17
2.1.1 安裝R、工具和示例 18
2.1.2 R編程 18
2.2 處理檔案中的數據 28
2.2.1 使用來自檔案或URL的結構良好的數據 28
2.2.2 使用R處理非結構化的數據 33
2.3 使用關係資料庫 37
2.4 小結 50
第3 章 探索數據 52
3.1 使用概要統計方法發現問題 54
3.2 使用圖形和可視化方法發現問題 59
3.2.1 採用可視化的方法檢查單變數的分布 61
3.2.2 採用可視化的方法檢查兩個變數之間的關係 71
3.3 小結 87
第4 章 管理數據 89
4.1 清洗數據 90
4.1.1 特定領域的數據清洗 90
4.1.2 處理缺失值 92
4.1.3 自動處理缺失值變數的vtreat程式包 96
4.2 數據轉換 99
4.2.1 歸一化處理 101
4.2.2 中心化和定標 102
4.2.3 針對偏態分布和廣泛分布的對數轉換 107
4.3 用於建模和驗證的抽樣處理 109
4.3.1 用於測試和訓練的分組數據集 110
4.3.2 創建一個樣本分組列 111
4.3.3 記錄分組 112
4.3.4 數據來源 113
4.4 小結 114
第5 章 數據工程與數據整理 115
5.1 數據選取 118
5.1.1 設定行子集和列子集 118
5.1.2 刪除不完整的數據的記錄 124
5.1.3 對行進行排序 128
5.2 基礎數據轉換 133
5.2.1 添加新列 133
5.2.2 其他簡單操作 139
5.3 匯總轉換 140
5.4 多表之間數據的轉換 144
5.4.1 快速地對兩個或多個排序的數據框執行合併 144
5.4.2 合併多個表中數據的主要方法 152
5.5 重新整理和轉換數據 159
5.5.1 將數據從寬錶轉換為窄表 159
5.5.2 將數據從窄錶轉換為寬表 164
5.5.3 數據坐標 169
5.6 小結 169
第Ⅱ部分 建模方法
第6 章 選擇和評價模型 172
6.1 將業務問題映射為機器學習任務 173
6.1.1 分類問題 173
6.1.2 打分問題 175
6.1.3 分組:目標未知情況下的處理 176
6.1.4 從問題到方法的映射 178
6.2 模型評估 179
6.2.1 過擬合 179
6.2.2 模型性能的度量 183
6.2.3 分類模型的評價 184
6.2.4 評估打分模型 195
6.2.5 機率模型的評估 198
6.3 使用局部可解釋的、與模型無關的解釋技術(LIME)來解釋模型預測 206
6.3.1 LIME:自動的完整性檢查 208
6.3.2 LIME實現過程:一個小樣本 208
6.3.3 LIME用於文本分類 216