Spark最佳實踐

基本簡介

本書是Spark實戰指南，全書共分8章。前4章介紹Spark的部署、工作機制和核心，後4章分別通過實戰項目介紹Spark SQL、Spark Streaming、Spark GraphX和Spark MLib功能模組。此外，本書詳細介紹了常見的實戰問題，比如大數據環境下的配置設定、程式調優等。本書附帶的一鍵安裝腳本，更能為初學者提供很大幫助。

圖書目錄

第1 章 Spark 與大數據 1

1.1　大數據的發展及現狀　1

1.1.1　大數據時代所面臨的問題　1

1.1.2　谷歌的大數據解決方案　2

1.1.3　Hadoop 生態系統　3

1.2　Spark 應時而生　4

1.2.1　Spark 的起源　4

1.2.2　Spark 的特點　5

1.2.3　Spark 的未來發展　6

第2　章 Spark 基礎　8

2.1　Spark 本地單機模式體驗　8

2.1.1　安裝虛擬機　8

2.1.2　安裝JDK　19

2.1.3　下載Spark 預編譯包　21

2.1.4　本地體驗Spark　22

2.2　高可用Spark 分散式集群部署　25

2.2.1　集群總覽　26

2.2.2　集群機器的型號選擇　28

2.2.3　初始化集群機器環境　29

2.2.4　部署ZooKeeper 集群　33

2.2.5　編譯Spark　35

2.2.6　部署Spark Standalone 集群　37

2.2.7　高可用Hadoop 集群　40

2.2.8　讓Spark 運行在YARN 上　40

2.2.9　一鍵部署高可用Hadoop +

Spark　集群　42

2.3　Spark 編程指南　43

2.3.1　互動式編程　43

2.3.2　RDD 創建　44

2.3.3　RDD 操作　47

2.3.4　使用其他語言開發Spark 程式　54

2.4　打包和提交　54

2.4.1　編譯、連結、打包　54

2.4.2　提交　56

第3　章 Spark 工作機制　58

3.1　調度管理　58

3.1.1　集群概述及名詞解釋　58

3.1.2　Spark 程式之間的調度　60

3.1.3　Spark 程式內部的調度　63

3.2　記憶體管理　65

3.2.1　RDD 持久化　65

3.2.2　共享變數　66

3.3　容錯機制　67

3.3.1　容錯體系概述　67

3.3.2　Master 節點失效　68

3.3.3　Slave 節點失效　69

3.4　監控管理　69

3.4.1　Web 界面　69

3.4.2　REST API　72

Spark最佳實踐

基本介紹

基本簡介

圖書目錄

相關詞條

熱門詞條