Spark海量數據處理

Spark海量數據處理

《Spark海量數據處理》是人民郵電出版社出版的一本書,作者是范東來。

基本介紹

  • 中文名:Spark海量數據處理 
  • 作者:范東來 
  • 出版社人民郵電出版社 
  • 出版時間:2019年12月 
  • ISBN:9787115507006 
內容簡介,圖書目錄,

內容簡介

本書基於Spark發行版2.4.4寫作而成,包含大量的實例與一個完整項目,層次分明,循序漸進。

圖書目錄

  1. 前言
  2. 本書特點
  3. 面向讀者
  4. 閱讀方法
  5. 勘誤和支持
  6. 致謝
  7. 第一部分 基礎篇
  8. 第1章 序篇
  9. 1.1 Spark與BDAS
  10. 1.2 Databricks
  11. 1.3 如何通過GitHub向Spark貢獻代碼
  12. 1.4 如何選擇Spark程式語言
  13. 1.5 函式式編程思想
  14. 1.6 小結
  15. 第2章 Spark編程
  16. 2.1 Spark架構
  17. 2.2 Spark 2.x與Spark 3.x
  18. 2.3 部署Spark
  19. 2.4 RDD與運算元
  20. 2.5 Spark Shuffle
  21. 2.6 共享變數
  22. 2.7 Spark的多語言支持
  23. 2.8 Spark性能調優
  24. 2.9 使用Jupyter Notebook基於Spark探索數據:蒙特卡羅方法預測股票價格
  25. 2.10 小結
  26. 第3章 Spark統一編程接口:DataFrame、Dataset和Spark SQL
  27. 3.1 Catalyst最佳化器
  28. 3.2 DataFrame API
  29. 3.3 Dataset API
  30. 3.4 Spark SQL
  31. 3.5 Google Dremel與列式存儲
  32. 3.6 使用Spark SQL進行數據探索
  33. 3.7 小結
  34. 第4章 Spark流處理:Spark Streaming與Structured Streaming
  35. 4.1 一個Spark Streaming流處理的例子
  36. 4.2 訊息送達保證
  37. 4.3 Google MillWheel系統和Google Dataflow模型
  38. 4.4 Spark Streaming
  39. 4.5 Structured Streaming
  40. 4.6 流處理技術對比
  41. 4.7 小結
  42. 第5章 Spark圖計算:GraphX
  43. 5.1 圖模式
  44. 5.2 生成圖
  45. 5.3 圖運算元
  46. 5.4 Pregel API
  47. 5.5 SQL on Graph
  48. 5.6 n度鄰居頂點算法
  49. 5.7 小結
  50. 第6章 Spark機器學習:MLlib
  51. 6.1 機器學習
  52. 6.2 Spark MLlib與Spark ML
  53. 6.3 數據預處理
  54. 6.4 分類算法套用
  55. 6.5 聚類算法套用
  56. 6.6 推薦系統套用
  57. 6.7 訓練之後
  58. 6.8 流式機器學習
  59. 6.9 小結
  60. 第7章 Spark深度學習:Deeplearning4j
  61. 7.1 常見的深度學習框架
  62. 7.2 Deeplearning4j
  63. 7.3 卷積神經網路
  64. 7.4 循環神經網路
  65. 7.5 自動編碼器
  66. 7.6 使用GPU
  67. 7.7 小結
  68. 第8章 分散式存儲:Alluxio
  69. 8.1 Alluxio架構
  70. 8.2 快速上手Alluxio
  71. 8.3 與上層框架集成
  72. 8.4 與底層存儲系統集成
  73. 8.5 如何訪問Alluxio
  74. 8.6 Alluxio套用案例
  75. 8.7 小結
  76. 第二部分 套用篇
  77. 第9章 企業數據湖與Lambda架構
  78. 9.1 數據湖
  79. 9.2 Lambda架構
  80. 9.3 基於Lambda架構的數據湖分層設計
  81. 9.4 Lambda架構的套用
  82. 9.5 構建Lambda架構的技術
  83. 9.6 小結
  84. 第10章 大數據企業動態背景調查平台
  85. 10.1 企業背景調查
  86. 10.2 基於大數據的企業動態背景調查
  87. 10.3 數據採集與數據字典
  88. 10.4 企業背景調查平台需求
  89. 10.5 企業關聯圖譜的模式
  90. 10.6 傳統數據倉庫架構
  91. 10.7 小結
  92. 第11章 平台設計
  93. 11.1 平台架構
  94. 11.2 物理拓撲
  95. 11.3 服務層圖資料庫設計
  96. 11.4 項目規劃
  97. 11.5 小結
  98. 第12章 數據管道層
  99. 12.1 安裝並配置canal
  100. 12.2 實現Kafka生產者
  101. 12.3 安裝並配置Flume
  102. 12.4 小結
  103. 第13章 速度層
  104. 13.1 速度層輸入
  105. 13.2 Cypher基礎
  106. 13.3 生成Cypher語句
  107. 13.4 整合Structured Streaming
  108. 13.5 小結
  109. 第14章 批處理層
  110. 14.1 自融風險監測
  111. 14.2 生成主數據集
  112. 14.3 用GraphX計算企業自融風險值
  113. 14.4 導入HBase
  114. 14.5 調度中心
  115. 14.6 小結
  116. 第15章 服務層與查詢層
  117. 15.1 不僅僅是合併
  118. 15.2 接口開發
  119. 15.3 小結
  120. 第三部分 總結篇
  121. 第16章 總結和展望
  122. 16.1 統一的大數據處理接口
  123. 16.2 Kappa架構
  124. 16.3 大數據處理技術
  125. 16.4 Spark未來發展方向

相關詞條

熱門詞條

聯絡我們