Spark快速數據處理

內容簡介

Spark是一個開源的通用並行分散式計算框架，由加州大學伯克利分校的AMP實驗室開發，支持記憶體計算、多疊代批量處理、即席查詢、流處理和圖計算等多種範式。Spark記憶體計算框架適合各種疊代算法和互動式數據分析，能夠提升大數據處理的實時性和準確性，現已逐漸獲得很多企業的支持，如阿里巴巴、百度、網易、英特爾等公司。

《Spark快速數據處理》系統講解Spark的使用方法，包括如何在多種機器上安裝Spark，如何配置一個Spark集群，如何在互動模式下運行第1個Spark作業，如何在Spark集群上構建一個生產級的脫機/獨立作業，如何與Spark集群建立連線和使用SparkContext，如何創建和保存RDD（彈性分散式數據集），如何用Spark分散式處理數據，如何設定Shark，將Hive查詢集成到你的Spark作業中來，如何測試Spark作業，以及如何提升Spark任務的性能。

圖書目錄

譯者序

作者簡介

前言

第1章　安裝Spark以及構建Spark集群 / 1

1.1　單機運行Spark / 4

1.2　在EC2上運行Spark / 5

1.3　在ElasticMapReduce上部署Spark / 11

1.4　用Chef(opscode)部署Spark / 12

1.5　在Mesos上部署Spark / 14

1.6　在Yarn上部署Spark / 15

1.7　通過SSH部署集群 / 16

1.8　連結和參考 / 21

1.9　小結 / 21

第2章　Spark shell的使用 / 23

2.1　載入一個簡單的text檔案 / 24

2.2　用Spark shell運行邏輯回歸 / 26

2.3　互動式地從S3載入數據 / 28

2.4　小結 / 30

第3章　構建並運行Spark套用 / 31

3.1　用sbt構建Spark作業 / 32

3.2　用Maven構建Spark作業 / 36

3.3　用其他工具構建Spark作業 / 39

3.4　小結 / 39

第4章　創建SparkContext / 41

4.1　Scala / 43

4.2　Java / 43

4.3　Java和Scala共享的API / 44

4.4　Python / 45

4.5　連結和參考 / 45

4.6　小結 / 46

第5章　載入與保存數據 / 47

Spark快速數據處理

基本介紹

內容簡介

圖書目錄

相關詞條

熱門詞條