R大數據分析實用指南

內容簡介

R是一個強大的、開源的、函式式程式語言，可以用於廣泛的編程任務。一般來講，R語言的套用主要在數據統計與分析、機器學習、高性能計算等方面。R語言已經在多個領域贏得了認可，同時也基於其開源、免費的特點不斷地發展壯大。

本書通過9章內容，循序漸進地揭示了大數據的概念，介紹了如何使用R進行數據處理，如何創建Hadoop虛擬機，如何建立和部署SQL資料庫，同時還介紹了MongoDB、HBase、Spark、Hive相關的內容，並介紹了R的潛在套用場景。

本書適合中級數據分析師、數據工程師、統計學家、研究人員和數據科學家閱讀，需要讀者具備數據分析、數據管理和大數據算法的基本知識。

圖書目錄

第 1章大數據時代 1

1.1　大數據——重新定義怪物　1

1.2　大數據工具箱——為大而生　4

1.2.1　Hadoop——屋中之象　4

1.2.2　資料庫　6

1.2.3　Hadoop的Spark化　7

1.3　R語言——大數據的無冕之王　8

1.4　小結　13

第　2章 R程式語言與統計環境的介紹　14

2.1　學習R　14

2.2　R語言基礎回顧　16

2.2.1　準備R和RStudio　16

2.2.2　R語言數據結構　19

2.2.3　導出R數據對象　29

2.3　套用數據科學與R　33

2.3.1　導入不同格式的數據　34

2.3.2　探索性數據分析　35

2.3.3　數據聚合和列聯表　37

2.3.4　假設檢驗和統計推斷　41

2.3.5　數據可視化包　52

2.4　小結　53

第3章　由內而外釋放R的力量　54

3.1　R的傳統局限性　54

3.1.1　記憶體外的數據　55

3.1.2　處理希匪局滲速度　55

3.2　超越記憶體限制　56

3.2.1　使用ff和ffbase軟體包進行數據轉換和聚合　56

3.2.2　使用ff和ffbase包的廣義線性模型　65

3.2.3　使用bigmemory包擴展記憶體　73

3.3　R的並行　付淋嬸愉81

3.3.1　從bigmemory到更快的計算　82

3.3.2　未來的R並行處理　89

3.4　使用data.table包和其協采他工具提高R性能　91

3.4.1　使用data.table包快速數據導入和操作　91

3.4.2　編寫更好的R代碼　98

3.5　小結　99

第4章　R相關的Hadoop和MapReduce框架　100

4.1　Hadoop架構　100

4.1.1　Hadoop分散式訂宙地檔案系統　101

4.1.2　MapReduce框架　101

4.1.3　其他Hadoop原生工具　104

4.1.4　學習Hadoop　105

4.2　雲上的單節點Hadoop　106

4.2.1　在Azure上部署Hortonworks Sandbox　106

4.2.2　Java語言的Hadoop單詞記數示例　119

4.2.3　R語言的Hadoop單詞記數示例　127

4.3　HDInsight—— Azure上的多節點Hadoop集群　145

4.3.1　創建第一個HDInsight集群　145

4.3.2　智慧型電錶數據分析示例——在HDInsight集群上使用R　滲迎櫃164

4.4　小結　175

第5章　R與關係型資料庫管理系統（RDBMS）　176

5.1　關係型套罪驗資料庫管理系統（RDBMS）　176

5.1.1　常用RDBMS簡介　177

5.1.2　結構化白記謎查詢語言（SQL）　178

5.2　用SQLite 連線R　179

5.2.1　準備並導入數據到本地SQLite資料庫　179

5.2.2　通過RStudio連線SQLite資料庫　182

5.3　在Amazon EC2實例中連線MariaDB和R　186

5.3.1　準備EC2實例和RStudio伺服器　186

5.3.2　準備MariaDB和數據　188

5.3.3　連線MariaDB和RStudio　195

5.4　連線Amazon RDS上的PostgreSQL和R　209

5.4.1　啟動一個Amazon RDS資料庫實例　209

5.4.2　準備並上傳數據到Amazon RDS上　214

5.4.3　從RStudio 遠程查詢Amazon RDS上的PostgreSQL　222

5.5　小結　232

第6章　R與非關係型資料庫　233

6.1　NoSQL資料庫簡介　233

6.2　用R操作MongoDB　236

6.2.1　MongoDB簡介　236

6.2.2　在Amazon EC2上安裝MongoDB並與R連線　237

6.2.3　使用MongoDB和R處理大數據　240

6.3　Hbase與R　268

6.3.1　Azure HDInsight與HBase和RStudio Server　268

6.3.2　將數據導入HDFS和HBase　274

6.3.3　使用rhbase包讀取和查閱Hbase　277

6.4　小結　282

第7章　比Hadoop更快——使用R編寫Spark　283

7.1　為大數據分析服務的Spark　283

7.2　多節點HDInsight集群上使用R的Spark　284

7.2.1　部署使用支持Spark和R/RStudio的HDInsight　284

7.2.2　將數據讀入HDFS和Hive　289

7.2.3　使用SparkR分析灣區共享腳踏車數據　299

7.3　小結　315

第8章　R語言大數據機器學習　316

8.1　機器學習是什麼　316

8.1.1　機器學習算法　316

8.1.2　監督和無監督機器學習方法　317

8.1.3　分類和聚類算法　318

8.1.4　R機器學習方法　318

8.1.5　大數據機器學習工具　319

8.2　在HDInsight集群中使用Spark和R的GLM示例　320

8.2.1　準備Spark群集並從HDFS讀取數據　320

8.2.2　Spark中的R語言邏輯回歸　325

8.3　R中基於Hadoop H2O的樸素貝葉斯　336

8.3.1　在R中運行Hadoop上的H2O實例　336

8.3.2　讀取和探索H2O中的數據　340

8.3.3　R中基於H2O的樸素貝葉斯　343

8.4　R中基於Hadoop H2O的神經網路　355

8.4.1　神經網路的工作原理　355

8.4.2　在H2O上運行神經網路模型　356

8.5　小結　364

第9章　R語言的未來——大數據、快數據、智慧型數據　365

9.1　R大數據分析的現狀　365

9.1.1　超過單機記憶體的數據　365

9.1.2　更快的R數據處理　367

9.1.3　Hadoop與R　367

9.1.4　Spark與R　368

9.1.5　R與資料庫　369

9.1.6　機器學習與R　370

9.2　R的未來　370

9.2.1　大數據　370

9.2.2　快數據　371

9.2.3　智慧型數據　372

9.3　如何提升　372

9.4　小結　373

R大數據分析實用指南

基本介紹

內容簡介

圖書目錄

相關詞條

熱門詞條