大數據處理框架Apache Spark設計與實現

作品簡介

近年來，以Apache Spark為代表的大數據處理框架在學術界和工業界得到了廣泛的使用。本書以Apache Spark框架為核心，總結了大數據處理框架的基礎知識、核心理論、典型的Spark套用，以及相關的性能和可靠性問題。本書分9章，主要包含四部分內容。第一部分大數據處理框架的基礎知識（第1～2章）：介紹大數據處理框架的基本概念、系統架構、編程模型、相關的研究工作，並以一個典型的Spark套用為例概述Spark套用的執行流程。第二部分Spark大數據處理框架的核心理論（第3～4章）：介紹Spark框架將應用程式轉化為邏輯處理流程，進而轉化為可並行執行的物理執行計畫的一般過程及方法。第三部分典型的Spark套用（第5章）：介紹疊代型的Spark機器學習套用和圖計算套用。第四部分大數據處理框架性能和可靠性保障機制（第6～9章）：介紹Spark框架的Shuffle機制、數據快取機制、錯誤容忍機制、記憶體管理機制等。

作品目錄

作者簡介

內容簡介

前言

讀者服務

第一部分大數據處理框架的基礎知識

第1章大數據處理框架概覽

1.1 大數據及其帶來的挑戰

1.2 大數據處理框架

1.3 大數據套用及編程模型

1.4 大數據處理框架的四層結構

1.5 錯誤容忍機制

1.6 其他大數據處理框架

1.7 本章小結

1.8 擴展閱讀

第2章 Spark系統部署與套用運行的基本流程

2.1 Spark安裝部署

2.2 Spark系統架構

2.3 Spark套用例子

2.4 Spark編程模型

2.5 本章小結

第二部分 Spark大數據處理框架的核心理論

第3章 Spark邏輯處理流程

3.1 Spark邏輯處理流程概覽

3.2 Spark邏輯處理流程生成方法

3.3 常用transformation數據操作

3.4 常用action數據操作

3.5 對比MapReduce，Spark的優缺點

3.6 本章小結

3.7 擴展閱讀

第4章 Spark物理執行計畫

4.1 Spark物理執行計畫概覽

4.2 Spark物理執行計畫生成方法

4.3 常用數據操作生成的物理執行計畫

4.4 本章小結

4.5 擴展閱讀

第三部分典型的Spark套用

第5章疊代型Spark套用

5.1 疊代型Spark套用的分類及特點

5.2 疊代型機器學習套用SparkLR

大數據處理框架Apache Spark設計與實現

基本介紹

作品簡介

作品目錄

相關詞條

熱門詞條