Spark編程基礎

內容簡介

本書以Scala作為開發Spark應用程式的程式語言，系統介紹了Spark編程的基礎知識。全書共7章，內容包括大數據技術概述、Spark的設計與運行原理、Spark環境搭建和使用方法、RDD編程、Spark SQL、Spark Streaming、Spark MLlib等。

圖書目錄

第 1章　大數據技術概述　1

1.1　大數據的概念與關鍵技術　2

1.1.1　大數據的概念　2

1.1.2　大數據關鍵技術　2

1.2　代表性大數據技術　4

1.2.1　Hadoop　4

1.2.2　Spark　8

1.2.3　Flink　10

1.2.4　Beam　11

1.3　程式語言的選擇　12

1.4　線上資源　13

1.5　本章小結　14

1.6　習題　14

實驗1　Linux系統的安裝和常用命令　15

一、實驗目的　15

二、實驗平台　15

三、實驗內容和要求　15

四、實驗報告　16

第 2章　Spark的設計與運行原理　17

2.1　概述　18

2.2　Spark生態系統　19

2.3　Spark運行架構　20

2.3.1　基本概念　20

2.3.2　架構設計　21

2.3.3　Spark運行基本流程　22

2.3.4　RDD的設計與運行原理　23

2.4　Spark的部署方式　32

2.5　本章小結　33

2.6　習題　34

第3章　Spark環境搭建和使用方法　35

3.1　安裝Spark　36

3.1.1　基礎環境　36

3.1.2　下載安裝檔案　36

3.1.3　配置相關檔案　37

3.1.4　Spark和Hadoop的互動　38

3.2　在spark-shell中運行代碼　38

3.2.1　spark-shell命令　39

3.2.2　啟動spark-shell　40

3.3　開發Spark獨立應用程式　40

3.3.1　安裝編譯打包工具　41

3.3.2　編寫Spark應用程式代碼　42

3.3.3　編譯打包　42

3.3.4　通過spark-submit運行程式　45

3.4　Spark集群環境搭建　45

3.4.1　集群概況　46

3.4.2　搭建Hadoop集群　46

3.4.3　在集群中安裝Spark　47

3.4.4　配置環境變數　47

Spark編程基礎

基本介紹

內容簡介

圖書目錄

相關詞條

熱門詞條