Spark大數據處理: 原理、算法與實例

內容簡介,作者簡介,目錄,

內容簡介

本書以時下最為流行的Hadoop所存在的缺陷為出發點,深入淺出地介紹了下一代大數據處理核心技術Spark的優勢和必要性,並以最簡潔的指引步驟展示了如何在10分鐘內建立一個Spark大數據處理環境。在此基礎上,本書以圖文並茂和豐富的示例代碼講解的形式系統性地揭示了Spark的運行原理、運算元使用、算法設計和最佳化手段,為讀者提供了一個快速由淺入深掌握Spark基礎能力和高級技巧的參考書籍。 本書共六章,涉及的主題主要包括大數據處理技術從Hadoop發展到Spark的必然性、快速體驗Spark的指引、Spark架構和原理、RDD運算元使用方法和示例、Spark算法設計實例、Spark程式最佳化方法。 本書適合需要使用Spark進行大數據處理的程式設計師、架構師和產品經理作為技術參考和培訓資料,亦可作為高校研究生和本科生教材。

作者簡介

劉軍,男,1976年生人,博士,副教授,碩士生導師,北京郵電大學數據科學中心主任。

目錄

第1章從Hadoop到Spark
1.1Hadoop——大數據時代的火種
1.1.1大數據的由來
1.1.2Google解決大數據計算問題的方法
1.1.3Hadoop的由來與發展
1.2Hadoop的局限性
1.2.1Hadoop運行機制
1.2.2Hadoop的性能問題
1.2.3針對Hadoop的改進
1.3大數據技術新星——Spark
1.3.1Spark的出現與發展
1.3.2Spark協定族
1.3.3Spark的套用及優勢
第2章體驗Spark
2.1安裝和使用Spark
2.1.1安裝Spark
2.1.2了解Spark目錄結構
2.1.3使用Spark Shell
2.2編寫和運行Spark程式
2.2.1安裝Scala外掛程式
2.2.2編寫Spark程式
2.2.3運行Spark程式
2.3Spark Web UI
2.3.1訪問實時Web UI
2.3.2從實時UI查看作業信息
第3章Spark原理
3.1Spark工作原理
3.2Spark架構及運行機制
3.2.1Spark系統架構與節點角色
3.2.2Spark作業執行過程
3.2.3套用初始化
3.2.4構建RDD有向無環圖
3.2.5RDD有向無環圖拆分
3.2.6Task調度
3.2.7Task執行
第4章RDD運算元
4.1創建運算元
4.1.1基於集合類型數據創建...
4.1.2基於外部數據創建RDD
4.2變換運算元
4.2.1對Value型RDD進行變換
4.2.2對Key/Value型RDD進行變換
4.3行動運算元
4.3.1數據運算類行動運算元
4.3.2存儲型行動運算元
4.4快取運算元
第5章Spark算法設計
5.1過濾
5.2去重計數
5.3相關計數
5.4相關係數
5.5數據聯結
5.6TopK
5.7Kmeans
5.8關聯規則挖掘
5.9kNN
5.10樸素貝葉斯分類
第6章善用Spark
6.1合理分配資源
6.2控制並行度
6.3利用持久化
6.4選擇恰當的運算元
6.5利用共享變數
6.5.1累加器變數
6.5.2廣播變數
6.6利用序列化技術
6.7關注數據本地性
6.8記憶體最佳化策略
6.9集成外部工具
參考文獻

相關詞條

熱門詞條

聯絡我們