Spark實戰

內容簡介

本書介紹了Spark應用程式及更高級套用的工作流程，主要從使用角度進行了描述，每個具體內容都有對應的代碼。本書涵蓋了Apache Spark和它豐富的API，構成Spark的組件（包括Spark SQL、Spark Streaming、Spark MLlib和Spark GraphX），在Spark standalone、 Hadoop YARN以及 Mesos clusters上運行Spark應用程式的部署和安裝。通過對應的實例全面、詳細地介紹了整個Spark實戰開發的流程。*後，還介紹了Spark的高級套用，包括Spark流應用程式及可擴展和快速的機器學習框架H2O。

本書可以作為高等院校計算機、軟體工程、數據科學與大數據技術等專業的大數據課程材料，可用於指導Spark編程實踐，也可供相關技術人員參考使用。

圖書目錄

譯者序

致謝

前言

關於本書

關於作者

關於封面

第1部分第1步

第1章 Apache Spark介紹

1.1什麼是Spark

1.1.1 Spark革命

1.1.2 MapReduce的缺點

1.1.3 Spark帶來了什麼有價值的東西

1.2 Spark組件

1.2.1 Spark核心

1.2.2 Spark SQL

1.2.3 Spark Streaming

1.2.4 Spark MLlib

1.2.5 Spark GraphX

1.3 Spark程式流

1.4 Spark生態系統

1.5 建立spark-in-action 虛擬機

1.5.1下載啟動虛擬機

1.5.2 停止虛擬機

1.6總結

第2章 Spark基礎

2.1使用spark-in-action虛擬機

2.1.1 複製Spark in Action GitHub存儲庫

2.1.2 找到java

2.1.3 用虛擬機的Hadoop安裝

2.1.4 檢查虛擬機的Spark安裝

2.2用Spark shell（殼）編寫第一個Spark程式

2.2.1 啟動Spark shell

2.2.2 第一個Spark代碼示例

2.2.3 彈性分散式數據集的概念

2.3基礎RDD行為和轉換

2.3.1 使用用map轉換

2.3.2 使用distinct和flatMap 轉換

2.3.3 使用sample、take和takeSample操作獲取RDD的元素

Spark實戰

基本介紹

內容簡介

圖書目錄

作者簡介

相關詞條

熱門詞條