Spark快速數據處理

內容簡介

Spark是一良悼晚遙個開源的通用並行分散式計算框架，由加州大學伯克利分校的AMP實驗室開發，支持記憶體計算、多疊代批量處理、即席查詢、流處理和圖計算等多種範式。Spark記憶體計算框架適墓屑合各種疊代算法和互動式數據分析，能夠提升大數據處理的實時性和準確性，現已逐漸獲得很多企業的支持，陵享充蜜如阿里巴巴、百度、網易、英特爾等公司。

《Spark快速數據處理》系統講解Spark的使用方法，包括如何在多種機器上安裝Spark，如何配置一個Spark集群，如何在互動模式下運行第1個Spark作業，如何在Spark集群上構建一個生產級的脫機/獨立作業，如何與Spark集群建立連線和使用SparkContext，如何創建和保存RDD（彈性分散式數據集），如何用Spark分散式處理數據，如何設定Shark，將Hive查詢集成到你的Spark作業中來，如何測試Spark作業，以及如何提升Spark任務的性提屑試能。

圖書目錄

譯者序

作者簡介

前言

第1章　安裝Spark以及構建Spark集群 / 1

1.1　單機估估挨運行Spark / 4

1.2　在EC2上運行Spark / 5

1.3　在ElasticMapReduce上部署甩殼煉Spark / 11

1.4　用Chef(opscode)部署Spark / 12

1.5　在Mesos上部署Spark / 14

1.6　在Yarn上部署Spark / 15

1.7　通過SSH部署集群 / 16

1.8　連結和參考 / 21

1.9　小結 / 21

第2章　Spark shell的使用 / 23

2.1　載入一個簡單的text檔案 / 24

2.2　用Spark shell運行邏輯回歸 / 26

2.3　互動式地從S3載入數據 / 28

2.4　小結 / 30

第3章　構建並運行Spark套用 / 31

3.1　用sbt構建Spark作業 / 32

3.2　用Maven構建Spark作業 / 36

3.3　用其他工具構建Spark作業 / 39

3.4　小結 / 39

第4章　創建SparkContext / 41

4.1　Scala / 43

4.2　Java / 43

4.3　Java和Scala共享的API / 44

4.4　Python / 45

4.5　連結和參考 / 45

4.6　小結 / 46

第5章　載入與保存數據 / 47

5.1　RDD / 48

5.2　載入數據到RDD中 / 49

5.3　保存數據 / 54

5.4　連線和參考 / 55

5.5　小結 / 55

第6章　操作RDD / 57

6.1　用Scala和Java操作RDD / 58

6.2　用Python操作RDD / 79

6.3　連結和參考 / 83

6.4　小結 / 84

第7章　Shark-Hive和Spark的綜合運用 / 85

7.1　為什麼用Hive/Shark / 86

7.2　安裝Shark / 86

7.3　運行Shark / 88

7.4　載入數據 / 88

7.5　在Spark程式中運行HiveQL查詢 / 89

7.6　連結和參考 / 92

7.7　小結 / 93

第訂戀良8章　測試 / 95

8.1　用Java和Scala測試 / 96

8.2　用Python測試 / 103

8.3　連結和參考 / 104

8.4　小結 / 105

第9章　技巧和竅門 / 107

9.1　日誌位置 / 108

9.2　並發限制 / 108

9.3　記憶體使用與垃圾回收 / 109

9.4　序列化 / 110

9.5　IDE集成環境 / 111

9.6　Spark與其他語言 / 112

9.7　安全提示 / 113

9.8　郵件列表 / 113

9.9　連結和參考 / 113

9.10　小結 / 114

Spark快速數據處理

基本介紹

內容簡介

圖書目錄

相關詞條

熱門詞條