大數據處理系統

內容簡介

Hadoop是目前重要的一種開源的大數據處理平台，讀懂Hadoop的原始碼，深入理解其各種機理，對於掌握大數據處理的技術有著顯而易見的重要性。本書從大數據處理的原理開始，講到Hadoop的由來，進而講述對於代碼的研究方法，然後以Hadoop作為樣本，較為詳盡地逐一分析大數據處理平台各核心組成部分的代碼，並從巨觀上講述這些部分的聯繫和作用。本書沿用作者獨特而廣受歡迎的情景分析方法和風格，深入淺出直白易懂，可以作為大數據系統高級課程的教材，也可用作計算機軟體專業和其他相關專業大學本科高年級學生和研究生深入學習大數據系統的參考書。同時，還可以作為各行業從事軟體開發和數據挖掘的工程師、研究人員以及其他對大數據處理技術感興趣者的自學教材。毛德操，著名計算機專家，浙江大學教授，浙大網新科技首席科學家，連連支付大數據與區塊鏈特別顧問。曾留學美國Umas大學，獲得計算機碩士學位。著有重磅著作《LINUX核心原始碼情景分析》和《Windows核心情景分析：採用開原始碼ReactOS（上、下冊）》，影響了整整一代大學生和工程師。

圖書目錄

第1章大數據與Hadoop

1.1 什麼是大數據

1.2 大數據的用途

1.3 並行計算

1.4 數據流

1.5 函式式程式設計與Lambda演算

1.6 MapReduce

1.7 大數據處理平台

1.8 Hadoop的由來和發展

1.9 Hadoop的MapReduce計算框架

1.10 Hadoop的分散式容錯檔案系統HDFS

第2章研究方法

2.1 摘要卡片

2.2 情景分析

2.3 面向對象的程式設計

2.4 怎樣閱讀分析Hadoop的代碼

第3章 Hadoop集群和YARN

3.1 Hadoop集群

3.2 Hadoop系統的結構

3.3 Hadoop的YARN框架

3.4 狀態機

3.5 資源管理器ResourceManager

3.6 資源調度器ResourceScheduler

第4章 Hadoop的RPC機制

4.1 RPC與RMI

4.2 ProtoBuf

4.3 Java的Reflection機制

4.4 RM節點上的RPC服務

4.5 RPC客戶端的創建

第5章 Hadoop作業的提交

5.1 從“地方”到“中央”

5.2 示例一：採用老API的ValueAggregatorJob

5.3 示例二：採用新API的WordCount

5.4 示例三：採用ToolRunner的QuasiMonteCarlo

5.5 從Job.submit( )開始的第二段流程

大數據處理系統

基本介紹

內容簡介

圖書目錄

相關詞條

熱門詞條