循序漸進學Spark

內容簡介

這是一本引導讀者深度學習Spark的技術指南。它由國內具實力的大數據線上教育機構小象學院組織撰寫，旨在用合理的結構和精煉的內容讓讀者用短的時間掌握Spark技術的核心內容。第1章和第2章分別講解了Spark的開發環境和編程模型；第3章分析了Spark的工作機制和原理；第4章則結合原始碼分析了Spark的核心架構和實現原理；第5章講解了Spark與YARN的結合套用；第6章介紹了Spark生態中其他模組的功能和使用；第7章總結了Spark性能調優方面的技巧和方法；第8章描述了Spark2.0發布後，其模組API的變化以及新增的功能特性。

圖書目錄

前　言

第1章　Spark架構與集群環境 1

1.1　Spark概述與架構 1

1.1.1　Spark概述 2

1.1.2　Spark生態 3

1.1.3　Spark架構 5

1.2　在Linux集群上部署Spark 8

1.2.1　安裝OpenJDK 9

1.2.2　安裝Scala 9

1.2.3　配置SSH免密碼登錄 10

1.2.4　Hadoop的安裝配置 10

1.2.5　Spark的安裝部署 13

1.2.6　Hadoop與Spark的集群複製 14

1.3　Spark 集群試運行 15

1.4　Intellij IDEA的安裝與配置 17

1.4.1　Intellij的安裝 17

1.4.2　Intellij的配置 17

1.5　Eclipse IDE的安裝與配置 18

1.6　使用Spark Shell開發運行Spark程式 19

1.7　本章小結 20

第2章　Spark 編程模型 21

2.1　RDD彈性分散式數據集 21

2.1.1　RDD簡介 22

2.1.2　深入理解RDD 22

2.1.3　RDD特性總結 24

2.2　Spark程式模型 25

2.3　Spark運算元 26

2.3.1　運算元簡介 26

2.3.2　Value型Transmation運算元 27

2.3.3　Key-Value型Transmation運算元 32

2.3.4　Action運算元 34

2.4　本章小結 37

第3章　Spark機制原理 38

3.1　Spark套用執行機制分析 38

3.1.1　Spark套用的基本概念 38

3.1.2　Spark套用執行機制概要 39

3.1.3　套用提交與執行 41

3.2　Spark調度機制 42

3.2.1　Application的調度 42

3.2.2　job的調度 43

3.2.3　stage（調度階段）和TasksetManager的調度 46

3.2.4　task的調度 50

循序漸進學Spark

基本介紹

內容簡介

圖書目錄

相關詞條

熱門詞條