Spark Streaming:實時流處理入門與精通

Spark Streaming:實時流處理入門與精通

《Spark Streaming:實時流處理入門與精通》是2017年電子工業出版社出版的圖書、作者是(美)Sumit Gupta(蘇密特·古普塔)。

基本介紹

  • 中文名:Spark Streaming:實時流處理入門與精通
  • 作者:(美)Sumit Gupta(蘇密特·古普塔)
  • 譯者:韓燕波等
  • 出版社:電子工業出版社
  • 出版時間:2017年4月
  • 頁數:184 頁 
  • 定價:39 元
  • 開本:16 開
  • 裝幀:平裝
  • ISBN:9787121310492
內容簡介,譯者簡介,圖書目錄,作者簡介,

內容簡介

本書主要對Spark和Spark的安裝、配置、主要架構和組件進行介紹,並介紹如何利用SparkStreaming進行實時數據的處理,討論利用Spark Streaming的多種API和操作進行近實時的分散式日誌流的處理。本書要求讀者對Scala有很好的認識和理解,以便能夠利用核心組件和套用進行高效編程。

譯者簡介

現任北方工業大學教授、北方工業大學雲計算研究中心主任。現兼任中國計算機學會服務計算專業委員會副主任、中國電子學會雲計算專家委員會委員、計算機學報編委。__eol__曾就職於德國國家計算機研究中心、德國弗郎霍夫軟體技術研究所和美國大規模分布系統實驗室等機構。2000年被聘為中科院計算技術研究所研究員,入選中科院海外傑出人才計畫(中科院百人計畫,2001期)。曾任中科院研究生院教授、博士生導師、中科院計算技術研究所格線與服務計算研究中心主任、軟體集成與服務計算研究分中心主任、中德軟體集成技術聯合實驗室主任。__eol__在資料庫、工作流、分布對象中間件、移動計算、格線計算等多個領域主持完成了863重點項目、國家基金重點項目、973子項等30項研究課題,發表論文140餘篇,出版專著4部。申報或合作申報發明專利和軟體登記50項,其中已向工業界轉化5項。__eol__是目前國內關於雲計算方面研究的頂尖科學家。

圖書目錄

目?錄
第1章?Spark和Spark Streaming的安裝與配置 1
安裝Spark 2
硬體需求 2
軟體需求 4
安裝Spark擴展——Spark Streaming 7
配置和運行Spark集群 8
你的個Spark程式 11
用Scala編碼Spark作業 12
用Java開發Spark作業 15
管理員/開發者工具 18
集群管理 18
提交Spark作業 19
故障定位 20
配置連線埠號 20
類路徑問題——類沒有發現 20
其他常見異常 20
總結 21
第2章?Spark和Spark Streaming的體系結構與組件 23
批處理和實時數據處理的比較 24
批處理 24
實時數據處理 26
Spark的體系結構 28
Spark對比Hadoop 28
Spark的層次化結構 29
Spark Streaming的體系結構 31
Spark Streaming是什麼 32
Spark Streaming的上層體系結構 32
你的個Spark Streaming程式 34
用Scala編碼Spark Streaming作業 34
用Java編碼Spark Streaming作業 37
客戶端程式 39
打包和部署一個Spark Streaming作業 41
總結 43
第3章?實時處理分散式日誌檔案 45
Spark的封裝結構和客戶端API 46
Spark核心 48
Spark庫及擴展 54
彈性分散式數據集及離散流 58
彈性分散式數據集 59
離散流 63
從分布的、多樣的數據源中載入數據 65
Flume 框架 67
Flume的安裝和配置 69
配置Spark以接收Flume事件 73
封裝和部署Spark Streaming作業 77
分散式日誌檔案處理的總體架構 77
總結 78
第4章?在流數據中套用Transformation 79
理解並套用Transformation功能 80
模擬日誌流 80
功能操作 82
轉換操作 89
視窗操作 91
性能調優 94
分塊和並行化 94
序列化 94
Spark記憶體調優 95
總結 97
第5章?日誌分析數據的持久化 99
Spark Streaming的輸出操作 100
集成Cassandra 110
安裝和配置Apache Cassandra 110
配置Spark 112
通過編寫Spark作業將流式網頁日誌存入Cassandra 113
總結 120
第6章?與Spark高級庫集成 121
實時查詢流數據 122
了解Spark SQL 122
集成Spark SQL與流數據 129
圖的分析——Spark GraphX 135
GraphX API介紹 137
集成Spark Streaming 140
總結 147
第7章?產品部署 149
Spark部署模式 150
部署在Apache Mesos上 151
部署在Hadoop或者YARN上 156
高可用性和容錯性 160
單機模式下的高可用性 160
Mesos或者YARN下的高可用性 162
容錯性 162
Streaming 作業的監聽 166
應用程式UI界面/作業UI界面 166
與其他監控工具的集成 169
總結 170

作者簡介

Sumit Gupta從事設計、管理並提供各種業務領域(如酒店業務,醫療保健,風險管理,保險業務等)的企業解決方案將近9年以上,是業內經驗豐富的專家、技術創新者和傳播者。他熱愛技術,在軟體行業擁有14年的實踐經驗。在過去4~5年中一直使用大數據和雲計算技術來解決複雜的業務問題。
現任北方工業大學教授、北方工業大學雲計算研究中心主任。現兼任中國計算機學會服務計算專業委員會副主任、中國電子學會雲計算專家委員會委員、計算機學報編委。曾就職於德國國家計算機研究中心、德國弗郎霍夫軟體技術研究所和美國大規模分布系統實驗室等機構。2000年被聘為中科院計算技術研究所研究員,入選中科院海外傑出人才計畫(中科院百人計畫,2001期)。曾任中科院研究生院教授、博士生導師、中科院計算技術研究所格線與服務計算研究中心主任、軟體集成與服務計算研究分中心主任、中德軟體集成技術聯合實驗室主任。在資料庫、工作流、分布對象中間件、移動計算、格線計算等多個領域主持完成了863重點項目、國家基金重點項目、973子項等30項研究課題,發表論文140餘篇,出版專著4部。申報或合作申報發明專利和軟體登記50項,其中已向工業界轉化5項。是目前國內關於雲計算方面研究的*科學家。

相關詞條

熱門詞條

聯絡我們