《大數據處理框架Apache Spark設計與實現》是由2020年8月電子工業出版社出版的圖書。
基本介紹
- 中文名:大數據處理框架Apache Spark設計與實現
- 作者:許利傑 方亞芬
- 出版社:電子工業出版社
- ISBN:9787121391712
《大數據處理框架Apache Spark設計與實現》是由2020年8月電子工業出版社出版的圖書。
《大數據處理框架Apache Spark設計與實現(全彩)》由電子工業出版社於2020年8月出版,作者是許利傑,方亞芬。本書採用問題驅動的敘述方式,強調基本原理的闡述,內容紮實,深入Spark底層。內容簡介 《大數據處理框架Apache Spark設計與實現(全彩)》以Apache Spark框架為核心,總結了大數據處理框架的基礎知識、核心理論、...
Bagel: Pregel on Spark,可以用Spark進行圖計算,這是個非常有用的小項目。Bagel自帶了一個例子,實現了Google的PageRank算法。當下Spark已不止步於實時計算,目標直指通用大數據處理平台,而終止Spark,開啟SparkSQL或許已經初見端倪。大數據機器學習和數據挖掘的並行化算法研究成為大數據領域一個較為重要的研究熱點。早幾...
《Spark核心設計的藝術:架構設計與實現》由多位專家聯袂推薦,360大數據專家撰寫,基於Spark 2.1.0剖析架構與實現精髓。細化到方法級,提煉出多個流程圖,立體呈現架構、環境、調度、存儲、計算、部署、API七大核心設計。本書特色:按照源碼分析的習慣設計,從腳本分析到初始化,再到核心內容。整個過程遵循由淺入深的...
本書共六章,涉及的主題主要包括大數據處理技術從Hadoop發展到Spark的必然性、快速體驗Spark的指引、Spark架構和原理、RDD運算元使用方法和示例、Spark算法設計實例、Spark程式最佳化方法。 本書適合需要使用Spark進行大數據處理的程式設計師、架構師和產品經理作為技術參考和培訓資料,亦可作為高校研究生和本科生教材。作者簡介 劉軍...
Spark是當前主流的大數據計算框架,本書較為全面地介紹了Spark的基本知識。按照“項目驅動、任務導向”的理念,全書設計了七個項目,分別是搭建Spark環境、編寫Scala程式處理4S店數據、Spark RDD分析交通違章記錄、Spark SQL處理結構化學生信息、Spark編程進階、Spark Streaming處理流數據及Spark ML實現電影推薦。為了使讀者...
《Spark大數據分析與實戰》是2019年9月清華大學出版社出版的圖書,作者是黑馬程式設計師。內容簡介 本書從初學者角度詳細介紹了Spark應用程式體系架構的核心技術,全書共9章。第1章詳細介紹開發Spark框架的Scala程式語言;第2~4、7~8章主要講解Spark核心基礎、SparkRDD彈性分散式數據集、Spark SQL處理結構化數據、Spark ...
《Spark大數據處理技術》是2015年1月電子工業出版社出版的圖書,作者是夏俊鸞、程浩、邵賽賽。內容簡介 本書以Spark 0.9版本為基礎進行編寫,是一本全面介紹Spark及Spark生態圈相關技術的書籍,是國內首本深入介紹 Spark 原理和架構的技術書籍。主要內容有 Spark 基礎功能介紹及內部重要模組分析,包括部署模式、調度框架...
Spark是當今大數據領域最活躍、最熱門、最高效的大數據通用計算平台,是Apache軟體基金會下所有開源項目中三大頂級開源項目之一。內容簡介 在“One Stack to rule them all”理念的指引下,Spark基於RDD成功地構建起了大數據處理的一體化解決方案,將MapReduce、Streaming、SQL、Machine Learning、Graph Processing等大數據計算...
第4章 Spark大數據處理基礎 69 4.1 Spark大數據處理技術 69 4.1.1 Spark系統概述 69 4.1.2 Spark生態系統BDAS(伯利克分析棧) 70 4.1.3 Spark的用武之地 71 4.1.4 Spark大數據處理框架 72 4.1.5 Spark運行模式分類及術語 73 4.2 Spark 2.0.0安裝配置 74 4.2.1 在Linux集群上安裝與配置Spark...
《Spark大數據分析技術(Python版·微課版)》是2023年清華大學出版社出版的圖書,作者是曹潔。內容簡介 本書系統介紹Spark大數據處理框架。全書共8章,內容包括大數據技術概述、Spark大數據處理框架、Spark RDD編程、Spark SQL結構化數據處理、HBase分散式資料庫、Spark Streaming流計算、Spark MLlib機器學習、數據可視化。
遲殿委,計算機軟體與理論專業碩士,系統架構設計師。有多年企業軟體研發經驗和豐富的JavaEE、大數據技術培訓經驗,熟練掌握JavaEE與大數據全棧技術框架,擅長JavaEE系統架構設計、大數據分析與挖掘。著有圖書《Hive入門與大數據分析實戰》《Hadoop大數據分析技術》《Hadoop+Spark大數據分析實戰》《Spring Boot企業級開發實戰(...
《Spark大數據處理:技術、套用與性能最佳化》是機械工業出版社出版的圖書,作者是高彥傑 內容簡介 《Spark大數據處理:技術、套用與性能最佳化》根據最新技術版本,系統、全面、詳細講解Spark的各項功能使用、原理機制、技術細節、套用方法、性能最佳化,以及BDAS生態系統的相關技術。 作為一個基於記憶體計算的大數據並行計算框架...
本書的主角是在大數據時代應運而生的數據處理與分析利器——Spark。你將通過豐富的示例學習如何使用Spark的結構化數據API,利用Spark SQL進行互動式查詢,掌握Spark套用的最佳化之道,用Spark和Delta Lake等開源工具構建可靠的數據湖,並用MLlib庫實現機器學習流水線。隨著Spark從2.x版本升級到3.0版本,本書第2版做了...
第二部分實現了一個企業背景調查系統,比較新穎的是,該系統借鑑了數據湖與Lambda架構的思想,涵蓋了批處理、流處理套用開發,並加入了一些開源組件來滿足需求,既是對本書第一部分很好的鞏固,又完整呈現了一個實時大數據套用的開發過程。第三部分是對全書的總結和展望。本書適合準備學習Spark的開發人員和數據分析師,...
《Apache Spark源碼剖析》以Spark 1.02版本源碼為切入點,著力於探尋Spark所要解決的主要問題及其解決辦法,通過一系列精心設計的小實驗來分析每一步背後的處理邏輯。《Apache Spark源碼剖析》第3~5章詳細介紹了Spark Core中作業的提交與執行,對容錯處理也進行了詳細分析,有助讀者深刻把握Spark實現機理。第6~9章對...
就職於阿里巴巴商家業務事業部,任資深Java工程師,專注於開源和大數據領域,目前與小夥伴們基於ODPS構建阿里的大數據商業解決方案——御膳房。在大量的工作實踐中,對J2EE、JVM、Tomcat、Spring、Hadoop、Spark、MySQL、Redis都有深入研究,尤其喜歡剖析開源項目的源碼實現。早期從事J2EE企業級套用開發,對Java相關技術有獨到...
本書詳細闡述了與Spark實時大數據分析以及Spark Streaming框架相關的基本解決方案,主要包括大數據漫遊指南,實時RDD,高速流:連結外部數據源,邊界效應,實時ETL和分析技術,大規模機器學習,雲、Lambda及Python等內容。此外,本書還提供了豐富的示例以及代碼,以幫助讀者進一步理解相關方案的實現過程。本書適合作為高等院校...
《圖解Spark 大數據快速分析實戰》是2022年人民郵電出版社出版的圖書。內容簡介 本書共8章,內容主要包括Spark概述及入門實戰,Spark的作業調度和資源分配算法,Spark SQL、DataFrame、Dataset的原理和實戰,深入理解Spark數據源,流式計算的原理和實戰,億級數據處理平台Spark性能調優,Spark機器學習庫,Spark 3.0的新特性...
·了解Spark如何在集群上運行。·Spark集群和應用程式的調試、監控、和調優。·學習Spark強大的流處理引擎——結構化流處理。·學習MLlib並了解如何套用它解決包括分類、推薦,以及其他多種實際問題。圖書目錄 前言 第部分大數據與Spark概述 第1章Spark是什麼?ApacheSpark的設計哲學 背景:大數據問題 Spark的歷史 Spark的...
7.6.5 處理遲到數據的實例 178 7.7 查詢的管理和監控 181 7.7.1 管理和監控的方法 181 7.7.2 一個監控的實例 182 7.8 本章小結 184 7.9 習題 185 實驗6 Structured Streaming編程實踐 185 第8章 Spark MLlib 187 8.1 基於大數據的機器學習 188 8.2 機器學習庫MLlib 概述 189 ...