Spark大數據處理技術

內容簡介

本書以Spark 0.9版本為基礎進行編寫，是一本全面介紹Spark及Spark生態圈相關技術的書籍，是國內首本深入介紹 Spark 原理和架構的技術書籍。主要內容有 Spark 基礎功能介紹及內部重要模組分析，包括部署模式、調度框架、存儲管理以及套用監控；同時也詳細介紹了 Spark 生態圈中其他的軟體和模組，包括 SQL 處理引擎 Shark 和 Spark SQL、流式處理引擎 Spark Streaming、圖計算框架 Graphx 以及分散式記憶體檔案系統 Tachyon。本書從概念和原理上對 Spark 核心框架和生態圈做了詳細的解讀，並對 Spark 的套用現狀和未來發展做了一定的介紹，旨在為大數據從業人員和 Spark愛好者提供一個更深入學習的平台。

本書適合任何大數據、Spark 領域的從業人員閱讀，同時也為架構師、軟體開發工程師和大數據愛好者展現了一個現代大數據框架的架構原理和實現細節。相信通過學習本書，讀者能夠熟悉和掌握 Spark 這一當前流行的大數據框架，並將其投入到生產實踐中去。

圖書目錄

第1章 Spark系統概述 15

1.1 大數據處理框架 15

1.2 Spark大數據處理框架 17

1.2.1 RDD表達能力 17

1.2.2 Spark子系統 18

1.3 小結 21

第2章 Spark RDD及編程接口 23

2.1 Spark程式“Hello World” 23

2.2 Spark RDD 26

2.2.1 RDD分區（Partition）27

2.2.2 RDD優先位置（preferredLocations）28

2.2.3 RDD依賴關係（Dependencies）29

2.2.4 RDD分區計算（Compute） 34

2.2.5 RDD分區函式（partitioner）35

2.3 創建操作 39

2.3.1 集合創建操作 39

2.3.2 存儲創建操作 40

2.4 轉換操作 42

2.4.1 RDD 基本轉換操作 42

2.4.2 鍵值RDD 轉換操作 52

2.4.3 再論RDD 依賴關係 59

2.5 控制操作（control operation） 61

2.6 行動操作(action operation) 63

2.6.1 集合標量行動操作 63

2.6.2 存儲行動操作 68

2.7 小結 72

第3 章 Spark 運行模式及原理 74

3.1 Spark 運行模式概述 74

3.1.1 Spark 運行模式列表74

3.1.2 Spark 基本工作流程 75

3.1.3 相關基本類 77

3.2 Local 模式 80

Spark大數據處理技術

基本介紹

內容簡介

圖書目錄

相關詞條

熱門詞條