內容簡介
本書借鑑數據科學家Jared P Lander在R語言上豐富的教學經驗,通過大量實例,詳細講解R語言的核心功能。對於剛接觸統計程式和模型的人,本書的內容組織結構使得學習R語言相當簡單和直觀。本書主要介紹R語言中20%的核心功能,但是這20%的功能足以讓你解決80%的現代數據分析。
書中每一章都是從基礎知識開始,提供大量的實例和代碼。你將學習下載和安裝R語言;設定和使用R語言環境;掌握基本的程式編寫,數據導入、操作和可視化;完成幾個測驗。然後在此基礎上,你將構建幾個完整的模型,包括線性和非線性模型,學習數據挖掘技術。接著你將在代碼中學習使用LaTeX,RMarkdown和Shiny等R語言包。
圖書目錄
譯者序
序
前言
致謝
第1章 獲取R語言 1
11 下載R語言 1
12 R語言版本 2
13 32位與64位 2
14 安裝R語言 2
141 在Windows系統上安裝 2
142 在Mac OS X系統上安裝 5
143 在Linux系統上安裝 8
15 微軟開源R語言 10
16 小結 10
第2章 R語言環境 11
21 命令行界面 12
22 RStudio 13
221 RStudio項目 14
222 RStudio工具 16
223 Git集成 20
23 微軟Visual Studio 22
24 小結 22
第3章 R語言包 23
31 安裝R語言包 23
32 載入R語言包 25
33 構建R語言包 26
34 小結 26
第4章 R語言基礎 27
41 基本數學運算 27
42 變數 28
421 變數賦值 28
422 刪除變數 29
43 數據類型 30
431 數值型 30
432 字元型 31
433 日期型 32
434 邏輯型 32
44 向量 34
441 向量操作 34
442 factor向量 37
45 函式調用 38
46 函式文檔 38
47 缺失數據 39
471 NA 39
472 NULL 40
48 管道 40
49 小結 41
第5章 高級數據結構 42
51 數據框 42
52 列表 48
123 select函式 120
124 f?ilter函式 127
125 slice函式 131
126 mutate函式 132
127 summarize函式 135
128 group_by函式 136
129 arrange函式 137
1210 do函式 137
1211 dplyr使用資料庫 139
1212 小結 140
第13章 數據疊代 141
131 map函式 141
132 特定類型的map函式 143
1321 map_int函式 144
1322 map_dbl函式 144
1323 map_chr函式 144
1324 map_lgl函式 145
1325 map_df函式 145
1326 map_if函式 146
133 數據框的疊代 147
134 map函式的多輸入 148
135 小結 149
第14章 數據整理 150
141 cbind和rbind 150
142 連線 151
1421 合併 152
1422 plyr中的join 152
1423 合併表 156
143 reshape2 157
1431 melt函式 157
1432 dcast函式 159
144 小結 160
第15章 數據重構:Tidyverse 161
151 合併行和列數據 161
152 用dplyr包連線 162
153 行列變換 166
154 小結 169
第16章 字元串操作 170
161 paste 170
162 把格式數據寫成串(sprintf) 171
163 提取文本 172
164 正則表達式 175
165 小結 181
第17章 機率分布 182
171 常態分配 182
172 二項分布 186
173 泊松分布 190
174 其他分布 192
175 小結 194
第18章 基本統計 195
181 概括性統計量 195
182 相關係數和協方差 198
183 t-檢驗 205
1831 單樣本t-檢驗 206
1832 兩樣本t-檢驗 208
1833 兩配對樣本t-檢驗 210
184 方差分析 211
185 小結 213
第19章 線性模型 214
191 簡單線性回歸 214
192 多元回歸 219
193 小結 234
第20章 廣義線性模型 235
201 邏輯斯蒂回歸 235
202 泊松回歸 238
203 其他的廣義線性模型 241
204 生存分析 242
205 小結 246
第21章 模型診斷 247
211 殘差 247
212 模型比較 252
213 交叉驗證 255
214 Bootstrap 259
215 逐步變數選擇 262
216 小結 264
第22章 正則化和壓縮 265
221 彈性網路 265
222 貝葉斯壓縮 279
223 小結 282
第23章 非線性模型 283
231 非線性最小二乘法 283
232 樣條插值 285
233 廣義相加模型 288
234 決策樹 293
235 boost樹 295
236 隨機森林 298
237 小結 299
第24章 時間序列和自相關 301
241 自回歸移動平均模型 301
242 向量自回歸 306
243 廣義自回歸異方差模型 311
244 小結 317
第25章 聚類 318
251 k-均值 318
252 PAM 325
253 分層聚類 329
254 小結 332
第26章 模型擬合調優:caret 333
261 caret介紹 333
262 caret選項 333
2621 caret訓練控制 334
2622 caret格線搜尋 334
263 boost樹調優 335
264 小結 338
第27章 可重複性報告:knitr 339
271 安裝LaTeX 339
272 LaTeX基礎 340
273 knitr中使用LaTeX 342
274 小結 346
第28章 R語言文檔:RMarkdown 347
281 文檔編譯 347
282 文檔頭信息 347
283 Markdown入門 348
284 Markdown代碼塊 350
285 htmlwidgets 351
2851 表數據 352
2852 leaflet 354
2853 dygraphs 356
2854 threejs 358
2855 d3heatmap 360
286 RMarkdown幻燈片 361
287 小結 362
第29章 互動式dashboard:Shiny 363
291 在RMarkdown中使用Shiny 363
292 Shiny中的回響表達式 366
293 服務端和UI界面 368
294 小結 376
第30章 構建R包 377
301 目錄結構 377
302 包檔案 378
3021 DESCRIPTION檔案 378
3022 NAMESPACE檔案 380