數據科學之編程技術:使用R進行數據清理

數據科學之編程技術:使用R進行數據清理

《數據科學之編程技術:使用R進行數據清理》是2019年機械工業出版社出版的圖書,作者是麥可·弗里曼(Michael Freeman)、喬爾·羅斯(Joel Ross)。

基本介紹

  • 中文名:數據科學之編程技術:使用R進行數據清理
  • 作者:麥可·弗里曼(Michael Freeman)、喬爾·羅斯(Joel Ross)
  • 出版社:機械工業出版社
  • ISBN:9787111640899
內容簡介,圖書目錄,

內容簡介

本書圍繞使用R進行數據科學編程所需的實際步驟展開,介紹了有關該主題的工具和技術的整個系統。書中共分為六大部分。第壹部分介紹了如何下載和安裝書中涉及的各種軟體;第二部分介紹了項目管理的基礎技術,包括跟蹤代碼的版本並生成文檔;第三部分介紹了R程式語言,它是整本書使用的主要開發語言;第四部分介紹了如何在R中載入、格式化、遍歷和重塑數據;第五部分介紹了數據科學中數據可視化的原則以及如何利用R構建數據可視化;第六部分介紹了如何用兩種不同的方法創建互動平台來分享自己的觀點,以及如何拓展自己的知識。

圖書目錄

譯者序
前言
第一部分 開始
第1章 設定計算機
1.1 設定命令行工具
1.1.1 Mac上的命令行
1.1.2 Windows上的命令行
1.1.3 Linux上的命令行
1.2 安裝git
1.3 創建GitHub賬戶
1.4 選擇一個文本編輯器
1.4.1 Atom
1.4.2 Visual Studio Code
1.4.3 Sublime Text
1.5 下載R語言
1.6 下載RStudio
第2章 使用命令行
2.1 訪問命令行
2.2 瀏覽檔案系統
2.2.1 改變目錄
2.2.2 列出檔案
2.2.3 路徑
2.3 管理檔案
2.3.1 學習新命令
2.3.2 通配符
2.4 錯誤處理
2.5 重定向輸出
2.6 網路命令
第二部分 項目管理
第3章 使用git和GitHub進行版本控制
3.1 什麼是git
3.1.1 git的核心概念
3.1.2 什麼是GitHub
3.2 配置和項目設定
3.2.1 生成一個倉庫
3.2.2 檢查狀態
3.3 跟蹤項目變更
3.3.1 添加檔案
3.3.2 提交
3.3.3 審核本地git流程
3.4 在GitHub中存儲項目
3.4.1 分支和克隆
3.4.2 推送和拉取
3.5 訪問項目歷史
3.5.1 提交歷史
3.5.2 恢復早期版本
3.6 忽略項目中的檔案
第4章 使用Markdown製作文檔
4.1 編寫Markdown
4.1.1 文本格式
4.1.2 文本塊
4.1.3 超連結
4.1.4 圖像
4.1.5 表格
4.2 渲染Markdown
第三部分 R的基本技能
第5章 R語言
5.1 用R編程
5.2 運行R代碼
5.2.1 使用RStudio
5.2.2 從命令行運行R
5.3 注釋
5.4 變數定義
5.4.1 基本數據類型
5.5 獲取幫助
5.5.1 如何學習R
第6章 函式
6.1 什麼是函式
6.1.1 R函式語法
6.2 內置R函式
6.2.1 命名參數
6.3 載入函式
6.4 編寫函式
6.4.1 調試函式
6.5 使用條件語句
第7章 向量
7.1 什麼是向量
7.1.1 創建向量
7.2 向量化操作
7.2.1 循環
7.2.2 多數為向量
7.2.3 向量化函式
7.3 向量索引
7.3.1 多索引
7.4 向量過濾
7.5 向量修改
第8章 列表
8.1 什麼是列表
8.2 創建列表
8.3 訪問列表元素
8.4 修改列表
8.4.1 單雙括弧
8.5 lapply()函式
第四部分 數據清理
第9章 理解數據
9.1 數據生成過程
9.2 查找數據
9.3 數據類型
9.3.1 測量尺度
9.3.2 數據結構
9.4 解釋數據
9.4.1 獲取領域知識
9.4.2 了解數據模式
9.5 用數據回答問題
第10章 數據框
10.1 什麼是數據框
10.2 使用數據框
10.2.1 創建數據框
10.2.2 數據幀的結構
10.2.3 訪問數據框
10.3 使用CSV數據
10.3.1 工作目錄
10.3.2 因子變數
第11章 使用dplyr運算元據
11.1 運算元據語法
11.2 核心dplyr函式
11.2.1 選擇
11.2.2 過濾
11.2.3 修改
11.2.4 排序
11.2.5 匯總
11.3 執行順序操作
11.3.1 管道操作
11.4 按組分析數據框
11.5 連線數據框
11.6 dplyr實戰:分析飛行數據
第12章 使用tidyr重塑數據
12.1 什麼是“整潔”數據
12.2 從列到行:gather()
12.3 從行到列:spread()
12.4 tidyr實戰:探索教育統計
第13章 訪問資料庫
13.1 關係資料庫概述
13.1.1 什麼是關係資料庫
13.1.2 建立關係資料庫
13.2 體驗SQL
13.3 從R訪問資料庫
第14章 訪問Web API
14.1 什麼是Web API
14.2 RESTful請求
14.2.1 URI(統一資源標識符)
14.2.2 HTTP動詞
14.3 從R訪問Web API
14.4 處理JSON數據
14.4.1 解析JSON
14.4.2 展平數據
14.5 API實戰:在西雅圖尋找古巴食品
第五部分 數據可視化
第15章 設計數據可視化
15.1 可視化的目的
15.2 選擇可視化布局
15.2.1 可視化單個變數
15.2.2 可視化多個變數
15.2.3 可視化分層數據
15.3 選擇有效的圖形編碼
15.3.1 有效顏色
15.3.2 利用前注意屬性
15.4 數據顯示的表達力
15.5 強化美學
第16章 使用ggplot2創建可視化
16.1 圖形語法
16.2 使用ggplot2進行基本繪圖
16.2.1 指定幾何圖形
16.2.2 美學映射
16.3 複雜的布局及定製
16.3.1 位置調整
16.3.2 標度樣式
16.3.3 坐標系
16.3.4 分面
16.3.5 標籤和注釋
16.4 構建地圖
16.4.1 分級統計(Choropleth)地圖
16.4.2 點分布地圖
16.5 ggplot2實戰:繪製舊金山驅逐地圖
第17章 R中的互動式可視化
17.1 plotly包
17.2 rbokeh包
17.3 leaflet 包
17.4 互動式可視化實戰:展示西雅圖的變化
第六部分 構建和共享應用程式
第18章 使用R Markdown創建動態報告
18.1 設定報告
18.1.1 新建.Rmd檔案
18.1.2 編織(Knit)文檔
18.2 集成Markdown與R代碼
18.2.1 R代碼塊
18.2.2 內聯代碼
18.3 在報告中渲染數據與可視化
18.3.1 渲染字元串
18.3.2 渲染Markdown列表
18.3.3 渲染表格
18.3.4 渲染繪圖
18.4 以網站形式共享報告
18.5 R Markdown實戰:壽命預測報告
第19章 使用Shiny構建互動式Web應用程式
19.1 Shiny框架
19.1.1 Shiny核心概念
19.1.2 程式結構
19.2 設計用戶界面
19.2.1 靜態內容
19.2.2 動態輸入
19.2.3 動態輸出
19.2.4 布局
19.3 開發應用程式伺服器
19.4 發布Shiny應用程式
19.5 Shiny實戰:可視化警察致命射擊
第20章 協同工作
20.1 使用分支跟蹤代碼的不同版本
20.1.1 不同分支
20.1.2 合併分支
20.1.3 合併衝突
20.1.4 GitHub的合併
20.2 使用特性分支開發項目
20.3 使用集中工作流協作
20.3.1 新建一個集中倉庫
20.3.2 在集中工作流中使用特性分支
20.4 使用分叉工作流協作
第21章 繼續學習
21.1 統計學習
21.1.1 評估關係
21.1.2 預測
21.2 其他程式語言
21.3 道德準則

相關詞條

熱門詞條

聯絡我們