Apache Spark流處理

內容簡介

在構建分析工具以快速獲得洞察力之前，你首先需要知道如何處理實時數據。熟悉Apache Spark的開發人員通過這本實用指南，可以學習如何將該記憶體框架用於流數據處理。你會發現Spark（如何讓你用與編寫批處理作業）幾乎相同的方式編寫流作業。

兩位作者Gerard Maas和Farancois Garillot將帶你探索Apache Spark的理論基礎知識。本書通過兩個部分對比了Spark（現在支持的兩種流API的差異）：原始Spark Streaming庫和新的結構化流API。

學習基本的流處理概念並研究不同的流體系結構

通過實例探討結構化流處理；詳細介紹流處理的不同方面。

利用Spark流創建和操作流作業和應用程式；將Spark流與其他Spark API集成。

學習高級Spark流處理技術，包括近似算法和機器學習算法。

將Apache Spark與其他流處理項目進行比較，包括Apache Storm、Apache Flink和Apache Kafka Strearns。

Foreword

Preface

Part Ⅰ． Fundamentals of Stream Processing with Apache Spark

1． Introducing Stream Processing

What Is Stream Processing?

Batch Versus Stream Processing

The Notion of Time in Stream Processing

The Factor of Uncertainty

Some Examples of Stream Processing

Scaling Up Data Processing

MapReduce

The Lesson Learned： Scalability and Fault Tolerance

Distributed Stream Processing

Stateful Stream Processing in a Distributed System

Introducing Apache Spark

The First Wave： Functional APIs

The Second Wave： SQL

A Unified Engine

Spark Components

Spark Streaming

Structured Streaming