圖解Spark 大數據快速分析實戰

內容簡介

本書共8章，內容主要包括Spark概述及入門實戰，Spark的作業調度和資源分配算法，Spark SQL、DataFrame、Dataset的原理和實戰，深入理解Spark數據源，流式計算的原理和實戰，億級數據處理平台Spark性能調優，Spark機器學習庫，Spark 3.0的新特性和數據湖等。

本書適合Spark開發人員和Spark運維人員閱讀。

第 1章 Spark概述及入門實戰 1

1.1 Spark簡介 3

1.1.1 為什麼要學習Spark 3

1.1.2 學好Spark的關鍵點 5

1.1.3 Spark學習難點 6

1.1.4 本書編寫思路 6

1.2 Spark原理及特點 7

1.2.1 Spark的核心優勢 7

1.2.2 Spark生態介紹 11

1.2.3 Spark模組的組成 12

1.2.4 Spark運行模式 18

1.2.5 Spark集群的角色組成 18

1.2.6 Spark核心概念 21

1.2.7 Spark作業運行流程 27

1.3 Spark入門實戰 33

1.3.1 Spark獨立環境安裝實戰 33

1.3.2 YARN環境安裝實戰 36

1.3.3 Spark批處理作業入門實戰 39

1.3.4 Spark流式作業入門實戰 44

第 2章 Spark的作業調度和資源分配算法 49

2.1 Spark的作業調度 49

2.1.1 Spark作業運行框架概述 49

2.1.2 Spark調度器原理 51

2.1.3 Spark應用程式的核心概念 52

2.1.4 Spark應用程式的調度流程 52

2.1.5 在YARN級別調度Spark作業 58

2.1.6 在任務級別調度Spark作業 58

2.1.7 本地化調度簡介 62

2.1.8 本地化調度流程：延遲調度策略 64

2.1.9 Spark任務延遲調度 65

2.1.10 Spark失敗重試與黑名單機制 67

2.1.11 推測執行 68

2.1.12 資源分配機制 70

2.2 Spark on YARN資源調度 74

2.2.1 Spark on YARN運行模式 74

2.2.2 YARN調度器 77