《Apache Spark流處理》是2020年5月1日東南大學出版社出版的圖書,作者是Gerard、Maas、弗朗索瓦·加里洛。
基本介紹
- 中文名:Apache Spark流處理
- 作者:Gerard、Maas、弗朗索瓦·加里洛
- 出版社:東南大學出版社
- ISBN:9787564188238
《Apache Spark流處理》是2020年5月1日東南大學出版社出版的圖書,作者是Gerard、Maas、弗朗索瓦·加里洛。
《Apache Spark流處理》是2020年5月1日東南大學出版社出版的圖書,作者是Gerard、Maas、弗朗索瓦·加里洛。內容簡介 在構建分析工具以快速獲得洞察力之前,你首先需要知道如何處理實時數據。熟悉Apache Spark的開發人員通過這本實用指南,可以...
Apache Spark 是專為大規模數據處理而設計的快速通用的計算引擎。Spark是UC Berkeley AMP lab (加州大學伯克利分校的AMP實驗室)所開源的類Hadoop MapReduce的通用並行框架,Spark,擁有Hadoop MapReduce所具有的優點;但不同於MapReduce的是...
《大數據處理框架Apache Spark設計與實現》是由2020年8月電子工業出版社出版的圖書。作品簡介 近年來,以Apache Spark為代表的大數據處理框架在學術界和工業界得到了廣泛的使用。本書以Apache Spark框架為核心,總結了大數據處理框架的基礎...
《大數據處理框架Apache Spark設計與實現(全彩)》由電子工業出版社於2020年8月出版,作者是許利傑,方亞芬。本書採用問題驅動的敘述方式,強調基本原理的闡述,內容紮實,深入Spark底層。內容簡介 《大數據處理框架Apache Spark設計與實現(...
《Spark Streaming:實時流處理入門與精通》是2017年電子工業出版社出版的圖書、作者是(美)Sumit Gupta(蘇密特·古普塔)。內容簡介 本書主要對Spark和Spark的安裝、配置、主要架構和組件進行介紹,並介紹如何利用SparkStreaming進行實時數據...
3.5.3 Apache CarbonData 100 3.5.4 對比測試 101 3.6 使用Spark SQL進行數據探索 102 3.7 小結 107 第4章 Spark流處理:Spark Streaming 與Structured Streaming 108 4.1 一個Spark Streaming流處理的例子 109 4.2...
Spark是當今大數據領域最活躍、最熱門、最高效的大數據通用計算平台,是Apache軟體基金會下所有開源項目中三大頂級開源項目之一。內容簡介 在“One Stack to rule them all”理念的指引下,Spark基於RDD成功地構建起了大數據處理的一體化解決...
9.1 Spark圖處理 9.1.1 使用GraphX API構造圖 9.1.2 轉換圖 9.2圖算法 9.2.1 數據集的介紹 9.2.2 最短路徑算法 9.2.3 頁面排名 9.2.4 連通分量 9.2.5 強連通分量 9.3實現A *搜尋算法 9.3.1 了解A *搜尋...
·Spark集群和應用程式的調試、監控、和調優。·學習Spark強大的流處理引擎——結構化流處理。·學習MLlib並了解如何套用它解決包括分類、推薦,以及其他多種實際問題。圖書目錄 前言 第部分大數據與Spark概述 第1章Spark是什麼?ApacheSpar...
第 11 章 用Apache Spark管理、部署與伸縮機器學習流水線 280 11.1 模型管理 280 11.2 用MLlib 部署模型所用的選項 286 11.2.1 批處理 287 11.2.2 流處理 289 11.2.3 導出模型用於實時預測的模式 290 11.3...
Spark Streaming 75 Receiver-based集成 75 Receiver-based approach的缺點 77 Receiver-based集成的Java示例 77 Receiver-based集成的Scala示例 79 Direct approach 80 Direct approach的Java示例 82 Direct approach的Scala示例 83 日誌處理...
第9章 讓我流起來,Scotty——Spark Streaming 238 9.1 關於流的簡要介紹 238 9.2 Spark Streaming 243 9.3 離散流 249 9.4 有狀態/無狀態轉換 256 9.5 檢查點 257 9.6 與流處理平台(Apache Kafka)的互操作 261 9.7 ...
3.始終抓住資源分配、訊息傳遞、容錯處理等基本問題,抽絲撥繭 4.一步步尋找答案,所有問題迎刃而解,使讀者知其然更知其所以然 內容提要 《Apache Spark源碼剖析》以Spark 1.02版本源碼為切入點,著力於探尋Spark所要解決的主要問題...
《Spark性能最佳化實戰:突破性能瓶頸,遨遊數據重洋》內容豐富,講解深入淺出,適合Apache Spark開發人員、數據工程師和數據科學家閱讀,也適合需要處理大規模數據集和對Spark性能最佳化感興趣的技術人員閱讀,還可作為高等院校大數據專業的教材和...
7.4 利用KSQL處理數據 122 7.5 寫入topic中 123 7.6 本章小結 126 第8章 Kafka Connect 127 8.1 Kafka Connect簡介 127 8.2 項目配置 128 8.3 Spark流處理程式 129 8.4 從Spark中讀取Kafka 130 8.5 數據轉換 ...
第1章 認識大數據和Spark 2 1.1 大數據的介紹 2 1.2 Apache Spark能做什麼 3 1.3 其他分散式數據處理框架 4 1.4 如何使用本書 4 ∣1.4.1 需要提前具備的基礎 4 ∣1.4.2 準備相關開發環境 4 ∣1...
等等,當要處理的數據規模達到大數據等級時,就不再是單機的 R 或 Python 可以應付得來的。 Apache Spark 是一套分散式和高擴展性的數據分析系統,在大數據分析乃至於計器學習的套用上占有一席之地。為了因應數據量爆炸性的成長,Spark ...
所有連續的事件流都可以稱為數據流。對連續數據流設計和構建流式數據架構,能夠實現實時或近實時套用,提升整個組織的效率。《流式架構:Kafka與MapR Streams數據流處理》以Apache Kafka 和MapRStreams為例,重點講解如何確定使用流數據的...
4.2.3 流分組 56 4.3 安裝和配置Storm 57 4.3.1 安裝Zookeeper 57 4.3.2 配置Apache Storm 59 4.4 在Storm上實時處理任務 61 4.5 小結 67 第5章 配置Apache Spark和Flink 68 5.1 安裝並快速運行Spark 68...
7.2 結構化流處理 221 7.2.1 結構化流處理數據源 222 7.2.2 結構化流處理的數據輸出池 223 7.2.3 輸出模式 224 7.2.4 結構化流處理操作 225 7.3 在Spark中使用訊息系統 226 7.3.1 Apache Kafka 227 7.3.2...
這些代碼中的大部分來自於谷歌 Cloud Dataflow SDK——開發者用來寫流處理和批處理管道(pipelines)的庫,可在任何支持的執行引擎上運行。當時,支持的主要引擎是谷歌 Cloud Dataflow,附帶對 Apache Spark 和 開發中的 Apache Flink 支持...
Spark是一個基於記憶體計算的開源集群計算系統,它非常小巧玲瓏,讓數據分析更加快速,已逐漸成為新一代大數據處理平台中的佼佼者。本書內容分為12章,從認識Apache Spark開始講解,陸續介紹了Spark的使用、外部數據源、Spark SQL、Spark ...
7.5 Spark Streaming處理流式數據 246 7.5.1 檔案流 246 7.5.2 RDD佇列流 248 7.5.3 套接字流 250 7.5.4 Kafka訊息佇列流 251 7.6 Spark Streaming性能調優 258 7.6.1 減少批處理時間 258 7.6.2 設定適合的批次...
5.1 實時處理概述 103 5.1.1 Spark Streaming 的優缺點 104 5.1.2 Spark Streaming 的發展史104 5.2 Spark Streaming 的架構 104 5.2.1 Spark Streaming 應用程式流106 5.2.2 無狀態和有狀態的流處理107 5.3 Spark...
=第1章 認識大數據和Spark /2 1.1 大數據的介紹 /2 1.2 Apache Spark能做什麼 /3 1.3 其他分散式數據處理框架 /4 1.4 如何使用本書 /4 ∣1.4.1 需要提前具備的基礎 /4 ∣1.4.2 準備相關開發環境 /4 ∣1.4.3 ...
Apache Spark Spark Streaming是核心Spark API的一個擴展,它並不會像Storm那樣一次一個地處理數據流,而是在處理前按時間間隔預先將其切分為一段一段的批處理作業。Spark針對持續性數據流的抽象稱為DStream(DiscretizedStream),一個D...
本書系統講述Apache Spark/PySpark大數據計算平台的原理,以及如果將Apache PySpark套用於大數據的實時流處理、批處理等各個場景。通過原理深入學習和實踐示例、案例的學習套用,使讀者了解並掌握Apache Spark/PySpark的基本原理和技能,接近理論與...
5.2.3R和Hadoop流139 5.2.4RHIVE—在工作站上安裝R並連線至Hadoop數據140 5.2.5ORCH—基於Hadoop的Oracle連線器140 5.3數據分析140 5.4本章小結165 第6章ApacheSpark批處理分析167 6.1SparkSQL和DataFrame167 6.2DataFrameAPI...