Hadoop權威指南：大數據的存儲與分析（第4版）

內容簡介

本書結合理論和實踐，由淺入深，全方位介紹了Hadoop這一高性能的海量數據處理和分析平台。全書5部分24章，第Ⅰ部分介紹Hadoop基礎知識，主題涉及Hadoop、MapReduce、Hadoop分散式檔案系統、YARN、Hadoop的I/O操作。第Ⅱ部分介紹MapReduce,主題包括MapReduce套用開發；MapReduce的工作機制、MapReduce的類型與格式、MapReduce的特性。第Ⅲ部分介紹Hadoop的運維，主題涉及構建Hadoop集群、管理Hadoop。第Ⅳ部分介紹Hadoop相關開源項目，主題涉及Avro、Parquet、Flume、Sqoop、Pig、Hive、Crunch、Spark、HBase、ZooKeeper。第Ⅴ部分提供了三個案例，分別來自醫療衛生信息技術服務商塞納(Cerner)、微軟的人工智慧項目ADAM(一種大規模分散式深度學習框架)和開源項目Cascading(一個新的針對MapReduce的數據處理API)。

本書是一本權威、全面的Hadoop參考書和工具書，闡述了Hadoop生態圈的最新發展和套用，程式設計師可以從中探索海量數據集的存儲和分析，管理員可以從中了解Hadoop集群的安裝和運維。

圖書目錄

第Ⅰ部分 Hadoop基礎知識

第1章初識Hadoop 3

1.1 數據！數據！ 3

1.2 數據的存儲與分析 5

1.3 查詢所有數據 6

1.4 不僅僅是批處理 7

1.5 相較於其他系統的優勢 8

1.5.1 關係型資料庫管理系統 8

1.5.2 格線計算 10

1.5.3 志願計算 11

1.6 Apache Hadoop發展簡史 12

1.7 本書包含的內容 16

第2章關於MapReduce 19

2.1 氣象數據集 19

2.2 使用Unix工具來分析數據 21

2.3 使用Hadoop來分析數據 22

2.3.1 map和reduce 23

2.3.2 Java MapReduce 24

2.4 橫向擴展 31

2.4.1 數據流 31

2.4.2 combiner函式 35

2.4.3 運行分散式的

MapReduce作業 37

2.5 Hadoop Streaming 37

2.5.1 Ruby版本 38

2.5.2 Python版本 40

第3章 Hadoop分散式檔案系統 42

3.1 HDFS的設計 42

3.2 HDFS的概念 44

3.2.1 數據塊 44

Hadoop權威指南：大數據的存儲與分析（第4版）

基本介紹

內容簡介

圖書目錄

相關詞條

熱門詞條