Spark:大數據集群計算的生產實踐

Spark:大數據集群計算的生產實踐

《Spark:大數據集群計算的生產實踐》一書原作者Ilya Ganelin(伊利亞·甘列林)等,中文版由李剛譯,周志湖審校電子工業出版社2017年5月出版

基本介紹

  • 書名:Spark:大數據集群計算的生產實踐
  • 作者:【美】Ilya Ganelin(伊利亞·甘列林) 等
  • 譯者:李剛
  • ISBN:978-7-121-31364-6
  • 頁數:220
  • 定價:65.00
  • 出版社:電子工業出版社
  • 出版時間:2017年5月
  • 開本:16
內容提要,目錄,

內容提要

《Spark:大數據集群計算的生產實踐》涵蓋了開發及維護生產級Spark套用的各種方法、組件與有用實踐。全書分為6章,第1 ~ 2章幫助讀者深入理解Spark的內部機制以及它們在生產流程中的含義;第3章和第5章闡述了針對配置參數的法則和權衡方案,用來調優Spark,改善性能,獲得高可用性和容錯性;第4章專門討論Spark套用中的安全問題;第6章則全面介紹生產流,以及把一個套用遷移到一個生產工作流中時所需要的各種組件,同時對Spark生態系統進行了梳理。
《Spark:大數據集群計算的生產實踐》不會講述入門級內容,讀者在閱讀前應已具備Spark基本原理的知識。《Spark:大數據集群計算的生產實踐》適合Spark開發人員、Spark套用的項目經理,以及那些考慮將開發的Spark應用程式遷移到生產環境的系統管理員(或者DevOps)閱讀。

目錄

第1章 成功運行Spark job 1
安裝所需組件 2
-- 原生安裝Spark Standalone集群 3
分散式計算的發展史 3
-- 步入雲時代 5
-- 理解資源管理 6
使用各種類型的存儲格式 9
-- 文本檔案 11
-- Sequence檔案 13
-- Avro檔案 13
-- Parquet檔案 13
監控和度量的意義 14
-- Spark UI 14
-- Spark Standalone UI 17
-- Metrics REST API 17
-- Metrics System 18
-- 外部監控工具 18
總結 19
第2章 集群管理 21
背景知識 23
Spark組件 26
-- Driver 27
-- workers與executors 28
-- 配置 30
Spark Standalone 33
-- 架構 34
-- 單節點設定場景 34
-- 多節點設定 36
YARN 36
-- 架構 38
-- 動態資源分配 41
-- 場景 43
Mesos 45
-- 安裝 46
-- 架構 47
-- 動態資源分配 49
-- 基本安裝場景 50
比較 52
總結 56
第3章 性能調優 59
Spark 執行模型 60
分區 62
-- 控制並行度 62
-- 分區器 64
shuffle數據 65
-- shuffle與數據分區 67
-- 運算元與shuffle 70
-- shuffle並不總是壞事 75
序列化 75
-- Kryo註冊器 77
Spark快取 77
-- SparkSQL 快取 81
記憶體管理 82
-- 垃圾回收 83
共享變數 84
-- 廣播變數 85
-- 累加器 87
數據局部性 90
總結 91
第4章 安全 93
架構 94
-- Security Manager 94
-- 設定配置 95
ACL 97
-- 配置 97
-- 提交job 98
-- Web UI 99
網路安全 107
加密 108
事件日誌 113
Kerberos 114
Apache Sentry 114
總結 115
第5章 容錯或job執行 117
Spark job的生命周期 118
-- Spark master 119
-- Spark driver 122
-- Spark worker 124
-- job生命周期 124
job調度 125
-- 應用程式內部調度 125
-- 用外部工具進行調度 133
容錯 135
-- 內部容錯與外部容錯 136
-- SLA 137
-- RDD 138
-- Batch vs Streaming 145
-- 測試策略 148
-- 推薦配置 155
總結 158
第6章 超越Spark 159
數據倉庫 159
-- SparkSQL CLI 161
-- Thrift JDBC/ODBC伺服器 162
-- Hive on Spark 162
機器學習 164
-- DataFrame 165
-- MLlib和ML 167
-- Mahout on Spark 174
-- Hivemall On Spark 175
外部的框架 176
-- Spark Package 177
-- XGBoost 179
-- spark-jobserver 179
未來的工作 182
-- 與參數伺服器集成 184
-- 深度學習 192
Spark在企業中的套用 200
-- 用Spark及Kafka收集用戶活動日誌 200
-- 用Spark做實時推薦 202
-- Twitter Bots的實時分類 204
總結 205

相關詞條

熱門詞條

聯絡我們