Spark海量數據處理：技術詳解與平台實戰

內容簡介

本書基於Spark發行版2.4.4寫作而成，包含大量的實例與一個完整項目，層次分明，循序漸進。全書分為3部分，涵蓋了技術理論與實戰，讀者可以從實戰中鞏固學習到的知識。第一部分主要圍繞BDAS（伯克利數據分析棧），不僅介紹了如何開發Spark套用的基礎內容，還介紹了Structured Streaming、Spark機器學習、Spark圖挖掘、Spark深度學習等高級主題，此外還介紹了Alluxio系統。第二部分實現了一個企業背景調查系統，比較新穎的是，該系統借鑑了數據湖與Lambda架構的思想，涵蓋了批處理、流處理套用開發，並加入了一些開源組件來滿足需求，既是對本書第一部分很好的鞏固，又完整呈現了一個實時大數據套用的開發過程。第三部分是對全書的總結和展望。

本書適合準備學習Spark的開發人員和數據分析師，以及準備將Spark套用到實際項目中的開發人員和管理人員閱讀，也適合計算機相關專業的高年級本科生和研究生學習和參考，對於具有一定的Spark使用經驗並想進一步提升的數據科學從業者也是很好的參考資料。

圖書目錄

第一部分基礎篇

第　1章序篇　2

1.1　Spark與BDAS　3

1.2　Databricks　4

1.3　如何通過GitHub向Spark貢獻代碼　5

1.4　如何選擇Spark程式語言　8

1.5　函式式編程思想　9

1.6　小結　12

第　2章 Spark編程　13

2.1　Spark架構　13

2.2　Spark 2.x與Spark 3.x　15

2.2.1　Tungsten項目　16

2.2.2　統一Dataset和DataFrame 接口　20

2.2.3　新一代流處理技術：Structured Streaming與持續型套用　21

2.2.4　Hydrogen項目和Spark 3.x　22

2.3　部署Spark　26

2.3.1　Spark on YARN　27

2.3.2　Spark on Mesos　28

2.3.3　Spark Standalone　29

2.3.4　Spark on Kubernetes　30

2.3.5　安裝Spark　31

2.3.6　提交作業　31

2.3.7　Spark Shell　33

2.3.8　初始化SparkSession　34

2.4　RDD與運算元　34

2.4.1　RDD　34

2.4.2　創建RDD　36

2.4.3　轉換運算元　38

2.4.4　行動運算元　43

2.4.5　RDD血統與Spark容錯　45

Spark海量數據處理：技術詳解與平台實戰

基本介紹

內容簡介

圖書目錄

相關詞條

熱門詞條