精通Hadoop 3

精通Hadoop 3

《精通Hadoop 3》是2022年一本清華大學出版社出版的圖書,作者是尚沙勒·辛格[印]等著,張華臻譯。

基本介紹

  • 中文名:精通Hadoop 3
  • 作者:尚沙勒·辛格[印]等
  • 譯者:張華臻
  • 出版社:清華大學出版社
  • 出版時間:2022年1月1日
  • 頁數:430 頁 
  • 定價:149 元
  • ISBN:9787302596875 
內容簡介,圖書目錄,

內容簡介

《精通Hadoop3》詳細闡述了與Hadoop 3相關的基礎知識,主要包括Hadoop 3簡介、深入理解Hadoop分散式檔案系統、YARN資源管理器、MapReduce內部機制、Hadoop中的SQL、實時處理引擎、Hadoop生態圈組件、定義Hadoop中的應用程式、Hadoop中的實時流處理、Hadoop中的機器學習、雲端中的Hadoop、Hadoop集群分析、Hadoop中的角色及其執行內容、網路和數據安全、監測Hadoop等內容。此外,本書還提供了相應的示例、代碼,以幫助讀者進一步理解相關方案的實現過程。 本書適合作為高等院校計算機及相關專業的教材和教學參考書,也可作為相關開發人員的自學用書和參考手冊。

圖書目錄

第1部分 Hadoop 3簡介
第1章 Hadoop 3簡介 3
1.1 Hadoop起源和時間軸 3
1.1.1 Hadoop的起源 4
1.1.2 時間軸 5
1.2 Hadoop 3及其特性 7
1.3 Hadoop邏輯視圖 8
1.4 Hadoop發行版本 10
1.4.1 本地版本 11
1.4.2 雲版本 11
1.5 回顧 12
1.6 本章小結 12
第2章 深入理解Hadoop分散式檔案系統 13
2.1 技術需求 13
2.2 定義HDFS 13
2.3 深入研究HDFS體系結構 14
2.3.1 HDFS邏輯結構 15
2.3.2 數據分組的概念 18
2.3.3 HDFS通信體系結構 19
2.4 NameNode內部機制 21
2.5 數據本地性和機架感知 22
2.6 DataNode內部機制 24
2.7 Quorum Journal Manager(QJM) 25
2.8 Hadoop 3.x中的高可用性 26
2.9 數據管理 27
2.9.1 元數據管理 28
2.9.2 使用二級NameNode的檢查點 31
2.9.3 數據集成 32
2.9.4 HDFS快照 32
2.9.5 數據平衡機制 33
2.9.6 均衡器的最佳套用方案 35
2.10 HDFS寫入、讀取操作 36
2.10.1 寫入工作流 36
2.10.2 讀取工作流 38
2.10.3 短路讀取 40
2.11 管理Hadoop 3.x中的磁碟傾斜數據 41
2.12 HDFS中的延遲持久化寫入操作 42
2.13 Hadoop 3.x中的糾刪碼 43
2.13.1 糾刪碼的優點 45
2.13.2 糾刪碼的缺點 45
2.14 HDFS公共接口 45
2.14.1 HDFS讀取操作 46
2.14.2 HDFS寫入操作 48
2.14.3 HDFSFileSystemWrite.java檔案 49
2.14.4 HDFS刪除操作 50
2.15 HDFS命令參考 50
2.15.1 檔案系統命令 50
2.15.2 分散式複製 52
2.15.3 管理命令 53
2.16 回顧 54
2.17 本章小結 54
第3章 YARN資源管理器 55
3.1 YARN體系結構 55
3.1.1 資源管理器組件 58
3.1.2 節點管理器核心 60
3.2 YARN作業調度機制簡介 60
3.3 FIFO調度器 61
3.4 計算能力調度器 61
3.5 公平調度器 63
3.5.1 調度佇列 63
3.5.2 配置公平調度器 64
3.6 資源管理器的高可用性 65
3.6.1 資源管理器高可用性的體系結構 66
3.6.2 配置資源管理器高可用性 67
3.7 節點標記 69
3.8 Hadoop 3.x中的YARN時間軸伺服器 75
3.9 Hadoop 3.x中的機會型容器 77
3.10 YARN中的Docker容器 79
3.10.1 配置Docker容器 80
3.10.2 運行Docker鏡像 80
3.10.3 運行容器 80
3.11 YARN REST API 81
3.11.1 資源管理API 81
3.11.2 節點管理器REST API 85
3.12 YARN命令參考 86
3.12.1 用戶命令 87
3.12.2 應用程式命令 87
3.12.3 日誌命令 88
3.12.4 管理員命令 89
3.13 本章小結 90
第4章 MapReduce內部機制 91
4.1 技術需求 91
4.2 深入了解Hadoop MapReduce框架 91
4.3 YARN和MapReduce 95
4.4 Hadoop框架中的MapReduce工作流 97
4.5 常見的MapReduce模式 100
4.5.1 求和模式 100
4.5.2 過濾模式 112
4.5.3 連線模式 116
4.5.4 複合連線 123
4.6 MapReduce用例 126
4.6.1 MovieRatingMapper 127
4.6.2 MovieRatingReducer 128
4.6.3 MovieRatingDriver 128
4.7 最佳化MapReduce 130
4.7.1 硬體配置 130
4.7.2 作業系統調試 131
4.7.3 最佳化技術 132
4.7.4 運行期配置 133
4.7.5 檔案系統最佳化 133
4.8 本章小結 134
第2部分 Hadoop生態圈
第5章 Hadoop中的SQL 137
5.1 技術需求 137
5.2 Presto 137
5.2.1 Presto體系結構 138
5.2.2 安裝Presto並執行基本的查詢操作 139
5.2.3 函式 142
5.2.4 Presto連線器 144
5.3 Hive 147
5.3.1 Apache Hive體系結構 148
5.3.2 安裝和運行Hive 149
5.3.3 Hive查詢 150
5.3.4 選擇檔案格式 154
5.3.5 HCatalog簡介 156
5.3.6 HiveServer2簡介 157
5.3.7 Hive UDF 157
5.3.8 理解Hive中的ACID 161
5.3.9 分區機制和分桶機制 166
5.3.10 最佳實踐 167
5.4 Impala 168
5.4.1 Impala體系結構 168
5.4.2 了解Impala接口和查詢 170
5.4.3 Impala實戰 171
5.4.4 載入CSV檔案中的數據 173
5.4.5 最佳實踐方案 175
5.5 本章小結 176

相關詞條

熱門詞條

聯絡我們