循序漸進學Spark

循序漸進學Spark

《循序漸進學Spark》是2017年由機械工業出版社出版的一本圖書,作者是小象學院、楊磊。

基本介紹

  • 書名:循序漸進學Spark
  • 作者:小象學院、楊磊
  • 出版社機械工業出版社
  • 出版時間:2017年04月01日
  • 頁數:242 頁
  • 定價:59.00
  • 開本:16 開
  • 裝幀:平裝
  • ISBN:9787111563327
內容簡介,圖書目錄,

內容簡介

這是一本引導讀者深度學習Spark的技術指南。它由國內具實力的大數據線上教育機構小象學院組織撰寫,旨在用合理的結構和精煉的內容讓讀者用短的時間掌握Spark技術的核心內容。第1章和第2章分別講解了Spark的開發環境和編程模型;第3章分析了Spark的工作機制和原理;第4章則結合原始碼分析了Spark的核心架構和實現原理;第5章講解了Spark與YARN的結合套用;第6章介紹了Spark生態中其他模組的功能和使用;第7章總結了Spark性能調優方面的技巧和方法;第8章描述了Spark2.0發布後,其模組API的變化以及新增的功能特性。

圖書目錄

前 言
第1章 Spark架構與集群環境 1
1.1 Spark概述與架構 1
1.1.1 Spark概述 2
1.1.2 Spark生態 3
1.1.3 Spark架構 5
1.2 在Linux集群上部署Spark 8
1.2.1 安裝OpenJDK 9
1.2.2 安裝Scala 9
1.2.3 配置SSH免密碼登錄 10
1.2.4 Hadoop的安裝配置 10
1.2.5 Spark的安裝部署 13
1.2.6 Hadoop與Spark的集群複製 14
1.3 Spark 集群試運行 15
1.4 Intellij IDEA的安裝與配置 17
1.4.1 Intellij的安裝 17
1.4.2 Intellij的配置 17
1.5 Eclipse IDE的安裝與配置 18
1.6 使用Spark Shell開發運行Spark程式 19
1.7 本章小結 20
第2章 Spark 編程模型 21
2.1 RDD彈性分散式數據集 21
2.1.1 RDD簡介 22
2.1.2 深入理解RDD 22
2.1.3 RDD特性總結 24
2.2 Spark程式模型 25
2.3 Spark運算元 26
2.3.1 運算元簡介 26
2.3.2 Value型Transmation運算元 27
2.3.3 Key-Value型Transmation運算元 32
2.3.4 Action運算元 34
2.4 本章小結 37
第3章 Spark機制原理 38
3.1 Spark套用執行機制分析 38
3.1.1 Spark套用的基本概念 38
3.1.2 Spark套用執行機制概要 39
3.1.3 套用提交與執行 41
3.2 Spark調度機制 42
3.2.1 Application的調度 42
3.2.2 job的調度 43
3.2.3 stage(調度階段)和TasksetManager的調度 46
3.2.4 task的調度 50
3.3 Spark存儲與I/O 52
3.3.1 Spark存儲系統概覽 52
3.3.2 BlockManager中的通信 54
3.4 Spark通信機制 54
3.4.1 分散式通信方式 54
3.4.2 通信框架AKKA 56
3.4.3 Client、Master和Worker之間的通信 57
3.5 容錯機制及依賴 65
3.5.1 Lineage(血統)機制 66
3.5.2 Checkpoint(檢查點)機制 68
3.6 Shuffle機制 70
3.6.1 什麼是Shuffle 70
3.6.2 Shuffle歷史及細節 72
3.7 本章小結 78
第4章 深入Spark核心 79
4.1 Spark代碼布局 79
4.1.1 Spark源碼布局簡介 79
4.1.2 Spark Core內模組概述 80
4.1.3 Spark Core外模組概述 80
4.2 Spark執行主線[RDD→Task]剖析 80
4.2.1 從RDD到DAGScheduler 81
4.2.2 從DAGScheduler到TaskScheduler 82
4.2.3 從TaskScheduler到Worker節點 88
4.3 Client、Master和Worker互動過程剖析 89
4.3.1 互動流程概覽 89
4.3.2 互動過程調用 90
4.4 Shuffle觸發 96
4.4.1 觸發Shuffle Write 96
4.4.2 觸發Shuffle Read 98
4.5 Spark存儲策略 100
4.5.1 CacheManager職能 101
4.5.2 BlockManager職能 105
4.5.3 DiskStore與DiskBlock--Manager類 113
4.5.4 MemoryStore類 114
4.6 本章小結 117
第5章 Spark on YARN 118
5.1 YARN概述 118
5.2 Spark on YARN的部署模式 121
5.3 Spark on YARN的配置重點 125
5.3.1 YARN的自身記憶體配置 126
5.3.2 Spark on YARN的重要配置 127
5.4 本章小結 128
第6章 BDAS 生態主要模組 129
6.1 Spark SQL 129
6.1.1 Spark SQL概述 130
6.1.2 Spark SQL的架構分析 132
6.1.3 Spark SQL如何使用 135
6.2 Spark Streaming 140
6.2.1 Spark Streaming概述 140
6.2.2 Spark Streaming的架構分析 143
6.2.3 Spark Streaming編程模型 145
6.2.4 數據源Data Source 147
6.2.5 DStream操作 149
6.3 SparkR 154
6.3.1 R語言概述 154
6.3.2 SparkR簡介 155
6.3.3 DataFrame創建 156
6.3.4 DataFrame操作 158
6.4 MLlib on Spark 162
6.4.1 機器學習概述 162
6.4.2 機器學習的研究方向與問題 164
6.4.3 機器學習的常見算法 167
6.4.4 MLlib概述 210
6.4.5 MLlib架構 212
6.4.6 MLlib使用實例——電影推薦 214
6.5 本章小結 220
第7章 Spark調優 221
7.1 參數配置 221
7.2 調優技巧 223
7.2.1 序列化最佳化 223
7.2.2 記憶體最佳化 224
7.2.3 數據本地化 228
7.2.4 其他最佳化考慮 229
7.3 實踐中常見調優問題及思考 230
7.4 本章小結 231
第8章 Spark 2.0.0 232
8.1 功能變化 232
8.1.1 刪除的功能 232
8.1.2 Spark中發生變化的行為 233
8.1.3 不再建議使用的功能 233
8.2 Core以及Spark SQL的改變 234
8.2.1 編程API 234
8.2.2 多說些關於SparkSession 234
8.2.3 SQL 236
8.3 MLlib 237
8.3.1 新功能 237
8.3.2 速度/擴展性 237
8.4 SparkR 238
8.5 Streaming 238
8.5.1 初識結構化Streaming 238
8.5.2 結構化Streaming編程模型 239
8.5.3 結果輸出 240
8.6 依賴、打包 242
8.7 本章小結 242

相關詞條

熱門詞條

聯絡我們