實時數據處理和分析指南

內容簡介

《實時數據處理和分析指南》主要介紹實時大數據計算領域的相關技巧和經驗，包括Flink、Spark和Storm等流處理框架技術。全書從搭建開發環境開始，逐步實現流處理，循序漸進地引導讀者學習如何利用Rabbit MQ、Kafka和NiFi以及Storm、Spark、Flink和Beam等組件協同套用來解決實際問題。

本書內容分為6個部分，分別是“導言——熟悉實時分析”“搭建基礎設施”“Storm實時計算”“使用Spark實現實時計算”“使用Flink實現實時分析”以及“綜合套用”。

在閱讀本書之前，讀者應具備基本的Java和Scala編程基礎，還應熟悉Maven、Java和Eclipse的安裝和配置流程。

圖書目錄

第一部分導言—熟悉實時分析

第 1章實時分析簡介　2

1.1　大數據的定義　2

1.2　大數據的基礎設施　3

1.3　實時分析—神話與現實　6

1.4　近實時解決方案—可用的架構　9

1.4.1　NRT的Storm解決方案　9

1.4.2　NRT的Spark解決方案　10

1.5　Lambda架構—分析可能性　11

1.6　物聯網—想法與可能性　13

1.7　雲—考慮NRT和物聯網　17

1.8　小結　18

第 2章實時套用的基本組件　19

2.1　NRT系統及其構建模組　19

2.1.1　數據採集　21

2.1.2　流處理　22

2.1.3　分析層—服務終端用戶　23

2.2　NRT的高級系統視圖　25

2.3　NRT的技術視圖　26

2.3.1　事件生產者　27

2.3.2　數據收集　27

2.3.3　代理　29

2.3.4　轉換和處理　31

2.3.5　存儲　32

2.4　小結　32

第二部分　搭建基礎設施

第3章　了解和跟蹤數據流　34

3.1　了解數據流　34

3.2　為數據提取安裝基礎設施　35

3.2.1　Apache Kafka　35

3.2.2　Apache NiFi　36

3.2.3　Logstash　41

3.2.4　Fluentd　43

3.2.5　Flume　46

3.3　將數據從源填到處理器—期望和注意事項　48

3.4　比較與選擇適合用例的最佳實踐　49

3.5　小試牛刀　49

3.6　小結　51

第4章　安裝和配置Storm　52

4.1　Storm概述　52

4.2　Storm架構和組件　53

4.2.1　特徵　54

實時數據處理和分析指南

基本介紹

內容簡介

圖書目錄

相關詞條

熱門詞條