大數據處理框架Apache Spark設計與實現

《大數據處理框架Apache Spark設計與實現》是由2020年8月電子工業出版社出版的圖書。

基本介紹

  • 中文名:大數據處理框架Apache Spark設計與實現
  • 作者:許利傑 方亞芬
  • 出版社電子工業出版社
  • ISBN:9787121391712
作品簡介,作品目錄,

作品簡介

近年來,以Apache Spark為代表的大數據處理框架在學術界和工業界得到了廣泛的使用。本書以Apache Spark框架為核心,總結了大數據處理框架的基礎知識、核心理論、典型的Spark套用,以及相關的性能和可靠性問題。本書分9章,主要包含四部分內容。第一部分大數據處理框架的基礎知識(第1~2章):介紹大數據處理框架的基本概念、系統架構、編程模型、相關的研究工作,並以一個典型的Spark套用為例概述Spark套用的執行流程。第二部分Spark大數據處理框架的核心理論(第3~4章):介紹Spark框架將應用程式轉化為邏輯處理流程,進而轉化為可並行執行的物理執行計畫的一般過程及方法。第三部分典型的Spark套用(第5章):介紹疊代型的Spark機器學習套用和圖計算套用。第四部分大數據處理框架性能和可靠性保障機制(第6~9章):介紹Spark框架的Shuffle機制、數據快取機制、錯誤容忍機制、記憶體管理機制等。

作品目錄

作者簡介
內容簡介
前言
讀者服務
第一部分 大數據處理框架的基礎知識
第1章 大數據處理框架概覽
1.1 大數據及其帶來的挑戰
1.2 大數據處理框架
1.3 大數據套用及編程模型
1.4 大數據處理框架的四層結構
1.5 錯誤容忍機制
1.6 其他大數據處理框架
1.7 本章小結
1.8 擴展閱讀
第2章 Spark系統部署與套用運行的基本流程
2.1 Spark安裝部署
2.2 Spark系統架構
2.3 Spark套用例子
2.4 Spark編程模型
2.5 本章小結
第二部分 Spark大數據處理框架的核心理論
第3章 Spark邏輯處理流程
3.1 Spark邏輯處理流程概覽
3.2 Spark邏輯處理流程生成方法
3.3 常用transformation數據操作
3.4 常用action數據操作
3.5 對比MapReduce,Spark的優缺點
3.6 本章小結
3.7 擴展閱讀
第4章 Spark物理執行計畫
4.1 Spark物理執行計畫概覽
4.2 Spark物理執行計畫生成方法
4.3 常用數據操作生成的物理執行計畫
4.4 本章小結
4.5 擴展閱讀
第三部分 典型的Spark套用
第5章 疊代型Spark套用
5.1 疊代型Spark套用的分類及特點
5.2 疊代型機器學習套用SparkLR
5.3 疊代型機器學習套用——廣義線性模型
5.4 疊代型圖計算套用——PageRank
5.5 本章小結
第四部分 大數據處理框架性能和可靠性保障機制
第6章 Shuffle機制
6.1 Shuffle的意義及設計挑戰
6.2 Shuffle的設計思想
6.3 Spark中Shuffle框架的設計
6.4 支持高效聚合和排序的數據結構
6.5 與Hadoop MapReduce的Shuffle機制對比
6.6 本章小結
第7章 數據快取機制
7.1 數據快取的意義
7.2 數據快取機制的設計原理
7.3 與Hadoop MapReduce的快取機制進行對比
7.4 本章小結
第8章 錯誤容忍機制
8.1 錯誤容忍機制的意義及挑戰
8.2 錯誤容忍機制的設計思想
8.3 重新計算機制
8.4 checkpoint機制的設計與實現
8.5 checkpoint與數據快取的區別
8.6 本章小結
第9章 記憶體管理機制
9.1 記憶體管理機制問題及挑戰
9.2 套用記憶體消耗來源及影響因素
9.3 Spark框架記憶體管理模型
9.4 Spark框架執行記憶體消耗與管理
9.5 數據快取空間管理
9.6 本章小結
參考文獻
大數據處理基石參考書

相關詞條

熱門詞條

聯絡我們