Spark快速大數據分析第2版

內容簡介

本書的主角是在大數據時代應運而生的數據處理與分析利器——Spark。你將通過豐富的示例學習如何使用Spark的結構化數據API，利用Spark SQL進行互動式查詢，掌握Spark套用的最佳化之道，用Spark和Delta Lake等開源工具構建可靠的數據湖，並用MLlib庫實現機器學習流水線。隨著Spark從2.x版本升級到3.0版本，本書第2版做了全面的更新，以體現Spark生態系統在機器學習、流處理技術等方面的發展，另新增一章詳解Spark 3.0引入的新特性。

圖書目錄

譯者序 xiii

對本書的讚譽 xv

序．xvii

前言 xix

第 1章　Apache Spark簡介：一站式分析引擎 1

1．1　Spark的起源 1

1．1．1　谷歌的大數據和分散式計算 1

1．1．2　雅虎的Hadoop 2

1．1．3　Spark在AMPLab嶄露頭角 3

1．2　什麼是Spar 3

1．2．1　快速 4

1．2．2　易用 4

1．2．3　模組化 4

1．2．4　可擴展 5

1．3　一站式數據分析 5

1．3．1　由Spark組件組成的一站式軟體棧 6

1．3．2　Spark的分散式執行 9

1．4　開發者體驗 12

1．4．1　哪些人用Spark，用它做什麼 13

1．4．2　社區接受度與社區發展 14

第 2 章　下載並開始使用Apache Spark 16

2．1　第 1 步：下載Spark 16

2．2　第 2 步：使用Scala shell 或PySpark shell 18

2．3　第3 步：理解Spark 套用的相關概念 22

2．3．1　Spark 套用與SparkSession 22

2．3．2　Spark 作業 23

2．3．3　Spark 執行階段 23

2．3．4　Spark 任務 24

2．4　轉化操作、行動操作以及惰性求值 24

2．5　Spark UI 26

2．6　第一個獨立套用 29

2．6．1　統計M&M 朱古力豆 29

2．6．2　用Scala 構建獨立套用 34

2．7　小結 36

第3 章　Apache Spark 的結構化數據API 37

3．1　RDD 的背後是什麼 37

Spark快速大數據分析第2版

基本介紹

內容簡介

圖書目錄

作者簡介

譯者簡介

相關詞條

熱門詞條