Spark編程基礎（Python版）

內容簡介

本書以Python作為開發Spark應用程式的程式語言，系統介紹了Spark編程的基礎知識。全書共8章，內容包括大數據技術概述、Spark的設計與運行原理、Spark環境搭建和使用方法、RDD編程、Spark SQL、Spark Streaming、Structured Streaming、Spark MLlib等。

圖書目錄

第1 章　大數據技術概述　1

1.1　大數據概念與關鍵技術　2

1.1.1　大數據的概念　2

1.1.2　大數據關鍵技術　2

1.2　代表性大數據技術　4

1.2.1　Hadoop　4

1.2.2　Spark　8

1.2.3　Flink　10

1.2.4　Beam　11

1.3　程式語言的選擇　12

1.4　線上資源　13

1.5　本章小結　14

1.6　習題　14

實驗1　Linux 系統的安裝和常用命令　15

第2　章 Spark 的設計與運行原理　17

2.1　概述　18

2.2　Spark 生態系統　19

2.3　Spark 運行架構　21

2.3.1　基本概念　21

2.3.2　架構設計　21

2.3.3　Spark 運行基本流程　22

2.3.4　RDD 的設計與運行原理　24

2.4　Spark 的部署方式　33

2.5　本章小結　34

2.6　習題　34

第3　章 Spark 環境搭建和使用方法　35

3.1　安裝Spark　36

3.1.1　基礎環境　36

3.1.2　下載安裝檔案　36

3.1.3　配置相關檔案　38

3.1.4　驗證Spark 是否安裝成功　39

3.1.5　Spark 和Hadoop 的互動　39

3.2　在pyspark 中運行代碼　40

3.2.1　pyspark 命令　40

3.2.2　啟動pyspark　41

3.3　開發Spark 獨立應用程式　42

3.3.1　編寫程式　42

3.3.2　通過spark-submit 運行程式　43

3.4　Spark 集群環境搭建　44

3.4.1　集群概況　44

3.4.2　搭建Hadoop 集群　44

3.4.3　在集群中安裝Spark　45

3.4.4　配置環境變數　45

3.4.5　Spark 的配置　46

3.4.6　啟動Spark 集群　47

3.4.7　關閉Spark 集群　47

Spark編程基礎（Python版）

基本介紹

內容簡介

圖書目錄

相關詞條

熱門詞條