大數據處理(2018年高等教育出版社出版的圖書)

大數據處理(2018年高等教育出版社出版的圖書)

本詞條是多義詞,共2個義項
更多義項 ▼ 收起列表 ▲

《大數據處理》作者是金海, 石宣化。2018年高等教育出版社出版的圖書。該書分基礎技術篇、計算篇和進階篇, 共9章內容, 分別為: 引言、分散式存儲、分散式資源管理與調度、傳統HPC並行計算、數據並行編程框架、sql處理框架、執行層最佳化、sql最佳化和特定套用的數據處理框架。

基本介紹

  • 中文名:大數據處理
  • 作者:金海 、 石宣化
  • 語言:中文
  • 出版時間:2018年
  • 出版社高等教育出版社
  • 頁數:325 頁 
  • ISBN:9787040509359
  • 類別: 研究生、本科、專科教材
  • 開本:16 開
  • 裝幀平裝
內容簡介,圖書目錄,

內容簡介

為培養學生理解大數據、處理大數據以及大數據系統最佳化的能力,《大數據處理》從思維、編程、最佳化三個方面系統闡述大數據處理的系統架構、編程、最佳化等核心技術以及方法。
  《大數據處理》內容共9章,包括大數據處理基礎、大數據存儲基礎、大數據管理基礎、大數據編程、流計算、圖計算、大數據系統管理、大數據系統最佳化技術、大數據資源連結等內容,技術章節內容均設有導言、習題和參考文獻。
  《大數據處理》既可供高校相關專業教學使用,也可供大數據領域工程師或者有志於大數據領域工作或研究的科技人員使用。

圖書目錄

前輔文
第1章 大數據處理基礎
1.1 大數據特徵
1.1.1 基本特徵
1.1.2 數據模型
1.2 大數據存儲模式
1.2.1 分散式檔案系統
1.2.2 大數據存儲形式
1.2.3 大數據存儲實例
1.3 大數據處理模式
1.3.1 並行處理
1.3.2 分散式處理
1.3.3 控制流的處理
1.3.4 數據流的處理
1.4 大數據編程模式
1.4.1 批處理
1.4.2 流處理
1.4.3 互動式數據處理
1.4.4 圖處理
1.5 大數據處理體系結構
1.5.1 數據中心
1.5.2 數據中心體系結構
1.5.3 數據中心的網路拓撲結構
1.6 本章小結與全書內容組織
參考文獻
習題
第2章 大數據存儲基礎
2.1 分散式存儲系統簡介
2.1.1 分散式存儲系統的基本概念
2.1.2 數據分布
2.1.3 複製與一致性
2.1.4 容錯機制
2.1.5 可擴展性
2.2 分散式檔案系統
2.2.1 分散式檔案系統概述
2.2.2 HDFS 的系統架構
2.2.3 數據分布
2.2.4 複製與一致性
2.2.5 容錯機制
2.2.6 讀寫流程
2.3 分散式鍵值系統
2.3.1 分散式鍵值系統概述
2.3.2 Dynamo 概述
2.3.3 數據分布
2.3.4 複製與一致性
2.3.5 容錯機制
2.3.6 負載均衡
2.3.7 讀寫流程
2.4 新型存儲器件驅動的記憶體系統
2.4.1 記憶體系統對大數據處理的重要性
2.4.2 非易失性存儲器
2.4.3 異構記憶體系統
2.5 本章小結
參考文獻
習題
第3章 大數據管理基礎
3.1 大數據管理挑戰概述
3.1.1 面向數據管理的大數據特徵
3.1.2 大數據的管理需求
3.2 大數據的劃分
3.2.1 數據劃分方法
3.2.2 數據一致性理論
3.3 大數據的組織管理方式
3.3.1 關係資料庫
3.3.2 Key-Value 資料庫
3.3.3 列族資料庫
3.3.4 文檔資料庫
3.3.5 圖資料庫
3.4 大數據倉庫系統
3.4.1 數據倉庫的發展歷史
3.4.2 大數據倉庫的特性
3.4.3 實例:Hive 分析
3.4.4 大數據倉庫的未來
3.5 本章小結
參考文獻
習題
第4章 大數據編程
4.1 函式式編程
4.1.1 函式式編程的起源
4.1.2 函式式語言家族成員
4.1.3 函式式編程的概念及特點
4.2 MapReduce 編程
4.2.1 MapReduce 的起源
4.2.2 MapReduce 的工作原理
4.2.3 MapReduce 的主要特點
4.3 MapReduce 案例研究
4.3.1 WordCount 程式分析
4.3.2 PageRank 程式分析
4.4 本章小結
參考文獻
習題
第5章 大數據流處理
5.1 流處理基礎和套用
5.1.1 流處理概述
5.1.2 流處理套用
5.2 分散式流計算
5.2.1 數據封裝
5.2.2 建立套用拓撲
5.2.3 指定操作的並行度
5.2.4 指定數據分組與傳輸方式
5.2.5 本節小節
5.3 開源系統及編程模型
5.3.1 Apache Storm
5.3.2 Spark Streaming
5.3.3 Apache Flink
5.4 流處理系統機制及最佳化
5.4.1 流處理調度及最佳化
5.4.2 流處理一致性語義
5.4.3 流處理容錯
參考文獻
習題
第6章 圖計算
6.1 圖計算背景
6.1.1 圖計算簡介
6.1.2 圖計算特點
6.1.3 圖計算實例
6.2 圖計算並行編程模型
6.2.1 以點為中心的編程模型
6.2.2 以邊為中心的編程模型
6.2.3 以路徑為中心的編程模型
6.2.4 以子圖為中心的編程模型
6.3 圖劃分和通信
6.3.1 圖劃分策略
6.3.2 訊息推送機制
6.4 單機圖計算系統
6.4.1 記憶體圖計算系統
6.4.2 核外圖計算系統
6.5 圖計算硬體加速技術
6.5.1 基於GPU 的圖計算加速技術
6.5.2 基於MIC 的圖計算加速技術
6.5.3 基於FPGA 的圖計算加速技術
6.5.4 基於ASIC 的圖計算加速技術
6.6 圖算法案例
6.6.1 圖拓撲屬性算法
6.6.2 圖數據管理和查詢算法
6.7 圖計算性能評價
6.8 本章小結
參考文獻
習題
第7章 大數據系統管理
7.1 統一資源管理
7.1.1 統一資源管理的設計思想
7.1.2 統一資源管理的基本架構
7.1.3 統一資源管理的工作流程
7.2 大數據系統資源調度
7.2.1 資源調度系統的架構
7.2.2 典型調度算法
7.3 大數據系統的協調技術
7.3.1 協調系統的架構與原理
7.3.2 複製狀態機模型
7.3.3 分散式一致性算法
7.4 案例研究
7.4.1 YARN
7.4.2 ZooKeeper
7.5 本章小結
參考文獻
習題
第8章 大數據系統最佳化技術
8.1 存儲最佳化
8.1.1 數據局部性最佳化
8.1.2 服務可擴展性最佳化
8.2 調度最佳化
8.2.1 調度模型
8.2.2 數據本地化
8.2.3 負載均衡
8.2.4 拖後腿問題與推測執行
8.3 運行時最佳化
8.3.1 中間結果快取
8.3.2 序列化開銷最佳化
8.4 本章小結
參考文獻
習題
第9章 大數據資源連結
重要名詞索引

相關詞條

熱門詞條

聯絡我們