Spark性能最佳化實戰

內容簡介

《Spark性能最佳化實戰：突破性能瓶頸，遨遊數據重洋》全面、系統、深入地介紹Apache Spark性能最佳化的相關技術和策略，涵蓋從Spark性能最佳化的基礎知識到核心技術，再到套用實踐的方方面面。本書不但系統地介紹各種監控工具的使用，而且還結合實戰案例，詳細介紹Spark性能最佳化的各種經驗和技巧，提升讀者的實際套用技能。

《Spark性能最佳化實戰：突破性能瓶頸，遨遊數據重洋》共8章。第1章從性能最佳化的基本概念出發，介紹Spark的基礎知識，並介紹如何進行性能最佳化；第2章介紹Spark性能最佳化的幾個方面，包括程式設計最佳化、資源最佳化、網路通信最佳化和數據讀寫最佳化等；第3章深入介紹Spark任務執行過程最佳化；第4章介紹Spark SQL性能最佳化；第5章結合實戰案例全面解析Spark性能最佳化的核心技術與套用；第6章詳細介紹不同套用場景的性能最佳化策略；第7章介紹Spark集成Hadoop、Kafka和Elasticsearch使用時的性能最佳化，從而提供更實用的Spark性能提升方案；第8章介紹Spark應用程式開發與最佳化，以及集群管理實踐。

《Spark性能最佳化實戰：突破性能瓶頸，遨遊數據重洋》內容豐富，講解深入淺出，適合Apache Spark開發人員、數據工程師和數據科學家閱讀，也適合需要處理大規模數據集和對Spark性能最佳化感興趣的技術人員閱讀，還可作為高等院校大數據專業的教材和相關培訓機構的教學用書。

圖書目錄

第1章性能最佳化基礎 1

1.1 Spark簡介 1

1.2 什麼是Spark性能最佳化 1

1.3 Spark應用程式性能指標 2

1.4 自帶的Spark Web UI 5

1.4.1 Jobs模組 6

1.4.2 Stages模組 12

1.4.3 Storage模組 16

1.4.4 Environment模組 17

1.4.5 Executors模組 18

1.4.6 SQL模組 19

1.5 自帶的Spark歷史伺服器 21

1.5.1 Spark歷史伺服器簡介 21

1.5.2 配置、啟動和訪問Spark歷史伺服器 22

1.6 Spark事件日誌 23

1.6.1 Spark的常見事件 23

1.6.2 事件信息 24

1.6.3 Spark啟動事件分析案例 24

1.6.4 Spark事件日誌的用途 25

1.6.5 CPU密集型與記憶體密集型分析案例 26

1.7 Spark驅動程式日誌 27

Spark性能最佳化實戰

基本介紹

內容簡介

圖書目錄

相關詞條

熱門詞條