Spark Streaming實時流式大數據處理實戰

內容簡介

本書以翔實的原理講解和充實的實戰代碼剖析，全面闡述了Spark Streaming流式處理平台，便於讀者能夠從入門開始了解搭建Spark平台，在此基礎上學習流式處理框架，並動手實踐，進行Spark Streaming流式大數據處理，包括與主流平台框架，如Kafka、Redis和ZooKeeper的對接套用等，並介紹了項目實戰中的一些開發和調優策略。讀者能夠通過本書快速搭建Spark平台，並根據自己面臨的使用場景快速搭建處理平台，同時能夠了解背後的原理，對調優、開發都能起到一定的指導作用。本書適合大數據處理人員，尤其是基於流式大數據處理的人員閱讀，本書也可以作為大數據處理人員的常備工具書隨時翻閱。

作者簡介

肖力濤浙江大學計算機碩士，前騰訊優圖實驗室及WeTest研究員，現拼多多資深算法工程師。長期進行大數據處理、自然語言處理、深度學習、推薦算法的研究與實踐，有豐富的項目經驗。善於歸納和總結，所撰寫的部落格文章得到了大量讀者的好評。擅長數據分析與處理、算法實踐落地、用戶行為數據挖掘、大規模數據處理等技術。運營《網際網路技術猿》公眾號。

圖書目錄

前言

第1篇 Spark基礎

第1章初識Spark2

1.1 Spark由來3

1.2 流式處理與Spark Streaming5

1.2.1 流式處理框架5

1.2.2 Spark Streaming初識7

1.2.3 Structed Streaming簡述8

1.3 本章小結8

第2章 Spark運行與開發環境9

2.1 Spark的下載與安裝9

2.2 Spark運行模式10

2.2.1 本地模式13

2.2.2 本地集群模式13

2.2.3 Standalone模式14

2.2.4 Spark On Yarn模式15

2.2.5 Spark On Mesos模式15

2.3 搭建開發環境15

2.3.1 修改配置16

2.3.2 啟動集群18

2.3.3 IDE配置20

2.3.4 UI監控界面24

2.4 實例——Spark檔案詞頻統計28

2.5 本章小結35

第3章 Spark編程模型36

3.1 RDD概述36

3.2 RDD存儲結構37

3.3 RDD操作38

3.3.1 Transformation操作38

3.3.2 Action操作41

3.4 RDD間的依賴方式42

3.4.1 窄依賴（Narrow Dependency）42

3.4.2 Shuffle依賴（寬依賴Wide Dependency）43

3.5 從RDD看集群調度45

3.6 RDD持久化（Cachinng/Persistence）46

Spark Streaming實時流式大數據處理實戰

基本介紹

內容簡介

作者簡介

圖書目錄

相關詞條

熱門詞條