基於Apache Spark的流處理基於Apache Spark的流處理

內容簡介

學習流處理的基本概念、研究各種流處理架構。通過具體實例來研究Structured Streaming、深入理解流處理概念。通過Spark Streaming創建並管理流作業，使用其他Spark API與Spark Streaming集成。學習Spark Streaming高級技巧，包括近似算法和機器學習算法。將Apache Spark與其他流處理項目比較，包括Apache Storm、Apache Flink和Apache Kafka Streams。

圖書目錄

序 1

前言 3

部分 Apache Spark 流處理的基本原理

第1 章流處理概述 13

什麼是流處理 14

批處理與流處理 15

流處理中的時間概念 15

不確定性因素 16

流處理案例 16

可擴展的數據處理能力 18

擴展性與容錯性 19

分散式流處理 19

Apache Spark 概述 20

波浪潮：函式式API 20

第二波浪潮：SQL 21

統一的引擎21

Spark 組件 22

Spark Streaming 23

Structured Streaming 23

接下來？ 24

第2 章流處理模型 25

數據源與接收器 26

不可變流 27

轉換與聚合 27

視窗聚合 28

滾動視窗 28

滑動視窗 29

無狀態處理與有狀態處理 29

有狀態的流 30

案例：Scala 中的本地狀態計算 31

無狀態流，還是有狀態流？ 33

時間效應 33

帶時間戳的事件計算 33

通過時間戳來定義時間概念 34

事件時間與處理時間 34

使用水位線計算 37

小結 39

第3 章流處理架構 41

數據平台的組件 41

體系模型 43

在流處理套用中使用批處理組件 44

流處理架構參考 45

Lambda 架構 45

Kappa 架構 46

流處理算法與批處理算法 47

流處理算法有時候本質上與批處理算法完全不同 47

流處理算法難以保證比批處理算法表現更好 48

小結 50

基於Apache Spark的流處理基於Apache Spark的流處理

基本介紹

內容簡介

圖書目錄

作者簡介

相關詞條

熱門詞條