《Spark海量數據處理》是人民郵電出版社出版的一本書,作者是范東來。
基本介紹
- 中文名:Spark海量數據處理
- 作者:范東來
- 出版社:人民郵電出版社
- 出版時間:2019年12月
- ISBN:9787115507006
內容簡介
圖書目錄
- 序
- 前言
- 本書特點
- 面向讀者
- 閱讀方法
- 勘誤和支持
- 致謝
- 第一部分 基礎篇
- 第1章 序篇
- 1.1 Spark與BDAS
- 1.2 Databricks
- 1.3 如何通過GitHub向Spark貢獻代碼
- 1.4 如何選擇Spark程式語言
- 1.5 函式式編程思想
- 1.6 小結
- 第2章 Spark編程
- 2.1 Spark架構
- 2.2 Spark 2.x與Spark 3.x
- 2.3 部署Spark
- 2.4 RDD與運算元
- 2.5 Spark Shuffle
- 2.6 共享變數
- 2.7 Spark的多語言支持
- 2.8 Spark性能調優
- 2.9 使用Jupyter Notebook基於Spark探索數據:蒙特卡羅方法預測股票價格
- 2.10 小結
- 第3章 Spark統一編程接口:DataFrame、Dataset和Spark SQL
- 3.1 Catalyst最佳化器
- 3.2 DataFrame API
- 3.3 Dataset API
- 3.4 Spark SQL
- 3.5 Google Dremel與列式存儲
- 3.6 使用Spark SQL進行數據探索
- 3.7 小結
- 第4章 Spark流處理:Spark Streaming與Structured Streaming
- 4.1 一個Spark Streaming流處理的例子
- 4.2 訊息送達保證
- 4.3 Google MillWheel系統和Google Dataflow模型
- 4.4 Spark Streaming
- 4.5 Structured Streaming
- 4.6 流處理技術對比
- 4.7 小結
- 第5章 Spark圖計算:GraphX
- 5.1 圖模式
- 5.2 生成圖
- 5.3 圖運算元
- 5.4 Pregel API
- 5.5 SQL on Graph
- 5.6 n度鄰居頂點算法
- 5.7 小結
- 第6章 Spark機器學習:MLlib
- 6.1 機器學習
- 6.2 Spark MLlib與Spark ML
- 6.3 數據預處理
- 6.4 分類算法套用
- 6.5 聚類算法套用
- 6.6 推薦系統套用
- 6.7 訓練之後
- 6.8 流式機器學習
- 6.9 小結
- 第7章 Spark深度學習:Deeplearning4j
- 7.1 常見的深度學習框架
- 7.2 Deeplearning4j
- 7.3 卷積神經網路
- 7.4 循環神經網路
- 7.5 自動編碼器
- 7.6 使用GPU
- 7.7 小結
- 第8章 分散式存儲:Alluxio
- 8.1 Alluxio架構
- 8.2 快速上手Alluxio
- 8.3 與上層框架集成
- 8.4 與底層存儲系統集成
- 8.5 如何訪問Alluxio
- 8.6 Alluxio套用案例
- 8.7 小結
- 第二部分 套用篇
- 第9章 企業數據湖與Lambda架構
- 9.1 數據湖
- 9.2 Lambda架構
- 9.3 基於Lambda架構的數據湖分層設計
- 9.4 Lambda架構的套用
- 9.5 構建Lambda架構的技術
- 9.6 小結
- 第10章 大數據企業動態背景調查平台
- 10.1 企業背景調查
- 10.2 基於大數據的企業動態背景調查
- 10.3 數據採集與數據字典
- 10.4 企業背景調查平台需求
- 10.5 企業關聯圖譜的模式
- 10.6 傳統數據倉庫架構
- 10.7 小結
- 第11章 平台設計
- 11.1 平台架構
- 11.2 物理拓撲
- 11.3 服務層圖資料庫設計
- 11.4 項目規劃
- 11.5 小結
- 第12章 數據管道層
- 12.1 安裝並配置canal
- 12.2 實現Kafka生產者
- 12.3 安裝並配置Flume
- 12.4 小結
- 第13章 速度層
- 13.1 速度層輸入
- 13.2 Cypher基礎
- 13.3 生成Cypher語句
- 13.4 整合Structured Streaming
- 13.5 小結
- 第14章 批處理層
- 14.1 自融風險監測
- 14.2 生成主數據集
- 14.3 用GraphX計算企業自融風險值
- 14.4 導入HBase
- 14.5 調度中心
- 14.6 小結
- 第15章 服務層與查詢層
- 15.1 不僅僅是合併
- 15.2 接口開發
- 15.3 小結
- 第三部分 總結篇
- 第16章 總結和展望
- 16.1 統一的大數據處理接口
- 16.2 Kappa架構
- 16.3 大數據處理技術
- 16.4 Spark未來發展方向