大數據處理系統

大數據處理系統

《大數據處理系統》是浙江大學出版社出版的圖書,作者是毛德操。

基本介紹

  • 中文名:大數據處理系統
  • 作者:毛德操
  • 出版時間:2017年4月30日
  • 出版社:浙江大學出版社
  • 頁數:771 頁
  • ISBN:9787308166690
  • 定價:128.00 元
  • 裝幀:平裝
內容簡介,圖書目錄,

內容簡介

Hadoop是目前重要的一種開源的大數據處理平台,讀懂Hadoop的原始碼,深入理解其各種機理,對於掌握大數據處理的技術有著顯而易見的重要性。 本書從大數據處理的原理開始,講到Hadoop的由來,進而講述對於代碼的研究方法,然後以Hadoop作為樣本,較為詳盡地逐一分析大數據處理平台各核心組成部分的代碼,並從巨觀上講述這些部分的聯繫和作用。 本書沿用作者獨特而廣受歡迎的情景分析方法和風格,深入淺出直白易懂,可以作為大數據系統高級課程的教材,也可用作計算機軟體專業和其他相關專業大學本科高年級學生和研究生深入學習大數據系統的參考書。同時,還可以作為各行業從事軟體開發和數據挖掘的工程師、研究人員以及其他對大數據處理技術感興趣者的自學教材。 毛德操,著名計算機專家,浙江大學教授,浙大網新科技首席科學家,連連支付大數據與區塊鏈特別顧問。曾留學美國Umas大學,獲得計算機碩士學位。著有重磅著作《LINUX核心原始碼情景分析》和《Windows核心情景分析:採用開原始碼ReactOS(上、下冊)》,影響了整整一代大學生和工程師。

圖書目錄

第1章 大數據與Hadoop
1.1 什麼是大數據
1.2 大數據的用途
1.3 並行計算
1.4 數據流
1.5 函式式程式設計與Lambda演算
1.6 MapReduce
1.7 大數據處理平台
1.8 Hadoop的由來和發展
1.9 Hadoop的MapReduce計算框架
1.10 Hadoop的分散式容錯檔案系統HDFS
第2章 研究方法
2.1 摘要卡片
2.2 情景分析
2.3 面向對象的程式設計
2.4 怎樣閱讀分析Hadoop的代碼
第3章 Hadoop集群和YARN
3.1 Hadoop集群
3.2 Hadoop系統的結構
3.3 Hadoop的YARN框架
3.4 狀態機
3.5 資源管理器ResourceManager
3.6 資源調度器ResourceScheduler
第4章 Hadoop的RPC機制
4.1 RPC與RMI
4.2 ProtoBuf
4.3 Java的Reflection機制
4.4 RM節點上的RPC服務
4.5 RPC客戶端的創建
第5章 Hadoop作業的提交
5.1 從“地方”到“中央”
5.2 示例一:採用老API的ValueAggregatorJob
5.3 示例二:採用新API的WordCount
5.4 示例三:採用ToolRunner的QuasiMonteCarlo
5.5 從Job.submit( )開始的第二段流程
5.6 YARNRunner和ResourceMgrDelegate
第6章 作業的調度與指派
6.1 作業的受理
6.2 NM節點的心跳和容器周轉
6.3 容器的分配
第7章 NodeManager與任務投運
7.1 AMLauncher與任務投運
7.2 MRAppMaster或AM的創建
7.3 資源本地化
7.4 容器的投運
第8章 MRAppMaster與作業投運
8.1 MRAppMaster
8.2 App資源與容器
8.3 容器的跨節點投送和啟動
8.4 目標節點上的容器投運
8.5 Uber模式下的本地容器分配與投運
8.6 任務的啟動
8.7 MapTask的運行
8.8 ReduceTask的投運
第9章 YARN子系統的計算框架
9.1 MapReduce框架
9.2 Streaming框架
9.3 Chain框架
9.4 Client與ApplicationMaster
第10章 MapReduce框架中的數據流
10.1 數據流和工作流
10.2 Mapper的輸入
10.3 Mapper的輸出緩衝區MapOutputBuffer
10.4 作為Collector的MapOutputBuffer
10.5 環形緩衝區kvbuffer
10.6 對MapoutputBuffer的輸出
10.7 Sort和Spill
10.8 Map計算的終結與Spill檔案的合併
10.9 Reduce階段
10.10 Merge
10.11 Reduce階段的輸入和輸出
第11章 Hadoop的檔案系統HDFS
11.1 檔案的分布與容錯
11.2 目錄節點NameNode
11.3 FSNamesystem
11.4 檔案系統目錄FSDirectory
11.5 檔案系統映像FsImage
11.6 檔案系統更改記錄FSEditLog
11.7 FSEditLog與Journal
11.8 EditLog記錄的重演
11.9 版本升級與故障恢復
第12章 HDFS的DataNode
12.1 DataNode
12.2 數據塊的存儲
12.3 RamDisk復份的持久化存儲
12.4 目錄掃描執行緒DirectoryScanner
12.5 數據塊掃描執行緒DataBlockScanner
第13章 DataNode與NameNode的互動
13.1 DataNode與NameNode的互動
13.2 心跳HeartBeat
13.3 BlockReport
第14章 DataNode間的互動
14.1 數據塊的接收和存儲
14.2 命令DNA_TRANSFER的執行
第15章 HDFS的檔案訪問
15.1 DistributedFileSystem和DFSClient
15.2 FsShell
15.3 HDFS的打開檔案流程
15.4 HDFS的讀檔案流程
15.5 HDFS的創建檔案流程
15.6 檔案租約
15.7 HDFS的寫檔案流程
15.8 實例
第16章 Hadoop的容錯機制
16.1 容錯與高可用
16.2 HDFS的HA機制
16.3 NameNode的倒換
16.4 Zookeeper與自動倒換
16.5 YARN的HA機制
第17章 Hadoop的安全機制
17.1 大數據集群的安全問題
17.2 UGI、Token和ACL
17.3 UGI的來源和流轉
17.4 Token的使用
第18章 Hadoop的人機界面
18.1 Hadoop的命令行界面
18.2 Hadoop的Web界面
18.3 Dependency Inject和Annotation
18.4 對網頁的訪問
第19章 Hadoop的部署和啟動
19.1 Hadoop的運維腳本
19.2 Hadoop的部署與啟動
19.3 Hadoop的日常使用
19.4 Hadoop平台的關閉
第20章 Spark的最佳化與改進
20.1 Spark與Hadoop
20.2 RDD與Stage——概念與思路
20.3 RDD的存儲和引用
20.4 DStream
20.5 拓撲的靈活性和多樣性
20.6 性能的提升
20.7 使用的方便性
20.8 幾個重要的類及其作用
參考資料

相關詞條

熱門詞條

聯絡我們