Spark快速數據處理

Spark快速數據處理

《Spark快速數據處理》是2014年機械工業出版社出版的圖書,作者是[美]Holden Karau。

基本介紹

  • 中文名:Spark快速數據處理
  • 作者:[美]Holden Karau
  • 出版社:機械工業出版社
  • 出版時間:2014年4月
  • 頁數:66 頁
  • 定價:29 元
  • 開本:16 開
  • 裝幀:平裝
  • ISBN:9787111463115
內容簡介,圖書目錄,

內容簡介

Spark是一個開源的通用並行分散式計算框架,由加州大學伯克利分校的AMP實驗室開發,支持記憶體計算、多疊代批量處理、即席查詢、流處理和圖計算等多種範式。Spark記憶體計算框架適合各種疊代算法和互動式數據分析,能夠提升大數據處理的實時性和準確性,現已逐漸獲得很多企業的支持,如阿里巴巴、百度、網易、英特爾等公司。
《Spark快速數據處理》系統講解Spark的使用方法,包括如何在多種機器上安裝Spark,如何配置一個Spark集群,如何在互動模式下運行第1個Spark作業,如何在Spark集群上構建一個生產級的脫機/獨立作業,如何與Spark集群建立連線和使用SparkContext,如何創建和保存RDD(彈性分散式數據集),如何用Spark分散式處理數據,如何設定Shark,將Hive查詢集成到你的Spark作業中來,如何測試Spark作業,以及如何提升Spark任務的性能。

圖書目錄

譯者序
作者簡介
前言
第1章 安裝Spark以及構建Spark集群 / 1
1.1 單機運行Spark / 4
1.2 在EC2上運行Spark / 5
1.3 在ElasticMapReduce上部署Spark / 11
1.4 用Chef(opscode)部署Spark / 12
1.5 在Mesos上部署Spark / 14
1.6 在Yarn上部署Spark / 15
1.7 通過SSH部署集群 / 16
1.8 連結和參考 / 21
1.9 小結 / 21
第2章 Spark shell的使用 / 23
2.1 載入一個簡單的text檔案 / 24
2.2 用Spark shell運行邏輯回歸 / 26
2.3 互動式地從S3載入數據 / 28
2.4 小結 / 30
第3章 構建並運行Spark套用 / 31
3.1 用sbt構建Spark作業 / 32
3.2 用Maven構建Spark作業 / 36
3.3 用其他工具構建Spark作業 / 39
3.4 小結 / 39
第4章 創建SparkContext / 41
4.1 Scala / 43
4.2 Java / 43
4.3 Java和Scala共享的API / 44
4.4 Python / 45
4.5 連結和參考 / 45
4.6 小結 / 46
第5章 載入與保存數據 / 47
5.1 RDD / 48
5.2 載入數據到RDD中 / 49
5.3 保存數據 / 54
5.4 連線和參考 / 55
5.5 小結 / 55
第6章 操作RDD / 57
6.1 用Scala和Java操作RDD / 58
6.2 用Python操作RDD / 79
6.3 連結和參考 / 83
6.4 小結 / 84
第7章 Shark-Hive和Spark的綜合運用 / 85
7.1 為什麼用Hive/Shark / 86
7.2 安裝Shark / 86
7.3 運行Shark / 88
7.4 載入數據 / 88
7.5 在Spark程式中運行HiveQL查詢 / 89
7.6 連結和參考 / 92
7.7 小結 / 93
第8章 測試 / 95
8.1 用Java和Scala測試 / 96
8.2 用Python測試 / 103
8.3 連結和參考 / 104
8.4 小結 / 105
第9章 技巧和竅門 / 107
9.1 日誌位置 / 108
9.2 並發限制 / 108
9.3 記憶體使用與垃圾回收 / 109
9.4 序列化 / 110
9.5 IDE集成環境 / 111
9.6 Spark與其他語言 / 112
9.7 安全提示 / 113
9.8 郵件列表 / 113
9.9 連結和參考 / 113
9.10 小結 / 114

相關詞條

熱門詞條

聯絡我們