Hadoop大數據技術原理與套用(第2版)

Hadoop大數據技術原理與套用(第2版)

《Hadoop大數據技術原理與套用(第2版)》是2023年清華大學出版社出版的圖書,作者是黑馬程式設計師。

基本介紹

  • 中文名:Hadoop大數據技術原理與套用(第2版)
  • 作者:黑馬程式設計師
  • 出版時間:2023年7月1日
  • 出版社:清華大學出版社
  • ISBN:9787302633969 
  • 定價:59.80 元
內容簡介,圖書目錄,

內容簡介

本書以Hadoop 3.x為主線,全面介紹Hadoop及其生態體系中常用的大數據開源項目的安裝和使用。全書共11章,分別講解大數據概念、Hadoop基礎知識、Hadoop集群部署、HDFS、MapReduce、YARN、ZooKeeper、Hive、Flume、Azkaban和Sqoop,並在最後開發一個完整的網站流量日誌分析系統,幫助讀者鞏固前面所學的內容。 本書附有配套視頻、教學課件、教學設計、測試題等資源;同時,為了幫助初學者更好地學習本書的內容,還提供線上答疑,歡迎讀者關注。

圖書目錄

目錄
第1章初識Hadoop1
1.1大數據概述1
1.1.1什麼是大數據1
1.1.2大數據的數據類型2
1.1.3大數據的特徵2
1.1.4研究大數據的意義3
1.2大數據的套用場景3
1.2.1醫療行業的套用3
1.2.2金融行業的套用4
1.2.3零售行業的套用4
1.3Hadoop概述5
1.3.1Hadoop的前世今生5
1.3.2Hadoop的優點6
1.3.3Hadoop的缺點6
1.3.4Hadoop的生態體系6
1.3.5Hadoop架構變遷8
1.4本章小結10
1.5課後習題10
第2章部署Hadoop11
2.1安裝準備11
2.1.1創建虛擬機11
2.1.2克隆虛擬機21
2.1.3配置虛擬機23
2.1.4安裝JDK31
2.2Hadoop集群部署模式33
2.3基於偽分散式模式部署Hadoop34
2.4基於完全分散式模式部署Hadoop40
2.5案例——詞頻統計47
2.6本章小結50
2.7課後習題51
第3章HDFS分散式檔案系統52
3.1檔案系統的分類52
3.2HDFS簡介54
3.2.1HDFS架構54
3.2.2HDFS的特點56
3.3HDFS的檔案讀寫流程57
3.4HDFS的健壯性59
3.5HDFS的Shell操作60
3.5.1HDFS Shell介紹60
3.5.2案例——通過Shell腳本定時採集數據到HDFS …68
3.6HDFS的Java API操作72
3.6.1HDFS的Java API介紹72
3.6.2案例——使用Java API操作HDFS73
3.7Federation機制82
3.7.1Federation機制的實現原理82
3.7.2Federation機制的特點84
3.7.3Federation機制的實現84
3.8Erasure Coding 88
3.9本章小結91
3.10課後習題92
第4章MapReduce分散式計算框架…93
4.1MapReduce概述93
4.2MapReduce編程模型94
4.3MapReduce工作原理96
4.3.1MapReduce工作過程 … 96
4.3.2MapTask工作原理97
4.3.3ReduceTask工作原理 98
4.3.4Shuffle工作原理99
4.4MapReduce編程組件100
4.4.1InputFormat組件100
4.4.2Mapper組件101
4.4.3Reducer組件103
4.4.4Partitioner組件104
4.4.5OutputFormat組件106
4.5MapReduce驅動類107
4.6MapReduce性能最佳化策略 …110
4.7YARN資源管理框架112
4.7.1YARN基本架構112
4.7.2YARN工作流程113
4.8MapReduce經典案例——數據去重114
4.8.1案例分析114
4.8.2案例實現116
4.9MapReduce經典案例——TopN118
4.9.1案例分析118
4.9.2案例實現119
4.10MapReduce經典案例——倒排索引121
4.10.1倒排索引介紹121
4.10.2案例分析122
4.10.3案例實現124
4.11本章小結129
4.12課後習題130
第5章ZooKeeper分散式協調服務 … 131
5.1ZooKeeper簡介131
5.1.1ZooKeeper特性132
5.1.2ZooKeeper集群架構 …132
5.2ZooKeeper數據模型133
5.3ZooKeeper典型套用場景134
5.4ZooKeeper的Watcher機制 …135
5.5ZooKeeper的選舉機制136
5.6部署ZooKeeper集群138
5.6.1基於偽分散式模式部署ZooKeeper集群139
5.6.2基於完全分散式模式部署ZooKeeper集群142
5.7ZooKeeper的Shell操作146
5.8ZooKeeper的Java API操作 …153
5.8.1創建會話153
5.8.2操作ZooKeeper154
5.9本章小結160
5.10課後習題160
第6章Hadoop高可用集群161
6.1HDFS高可用集群161
6.2YARN高可用集群163
6.3部署Hadoop高可用集群164
6.4本章小結180
6.5課後習題180
第7章Hive數據倉庫181
7.1數據倉庫簡介181
7.1.1什麼是數據倉庫181
7.1.2數據倉庫系統結構182
7.1.3數據倉庫分層183
7.1.4數據倉庫模型184
7.2Hive簡介185
7.2.1Hive與傳統關係資料庫的區別185
7.2.2Hive系統架構186
7.2.3Hive工作原理187
7.2.4Hive數據存儲模型 …188
7.3Hive的部署189
7.3.1內嵌模式189
7.3.2本地模式192
7.3.3遠程模式197
7.4Hive數據類型200
7.5資料庫操作202
7.5.1創建資料庫202
7.5.2查看資料庫信息203
7.5.3修改資料庫屬性204
7.5.4刪除資料庫204
7.6表操作205
7.6.1創建表205
7.6.2查看錶208
7.6.3修改表209
7.6.4刪除表211
7.6.5修改分區212
7.7數據操作215
7.7.1導入數據215
7.7.2向分區導入數據218
7.7.3查詢數據221
7.7.4查詢插入228
7.7.5關聯查詢230
7.8本章小結233
7.9課後習題233
第8章Flume日誌採集系統235
8.1Flume概述235
8.2Flume日誌採集系統結構236
8.3Flume的部署238
8.4Flume的基本使用239
8.5Flume的採集方案242
8.5.1Flume Sources243
8.5.2Flume Channels245
8.5.3Flume Sinks247
8.6Flume攔截器251
8.7Flume的可靠性保證253
8.7.1負載均衡253
8.7.2故障恢復259
8.8案例——將日誌採集到HDFS263
8.8.1案例分析264
8.8.2案例實現264
8.9本章小結271
8.10課後習題271
第9章Azkaban工作流管理器272
9.1工作流管理器概述272
9.2Azkaban概述273
9.3部署Azkaban274
9.3.1Azkaban部署模式274
9.3.2安裝Azkaban274
9.3.3配置Azkaban276
9.3.4啟動Azkaban279
9.4Azkaban的使用283
9.4.1Azkaban的常用概念283
9.4.2案例演示——依賴任務調度管理284
9.4.3案例演示——MapReduce程式調度管理290
9.4.4案例演示——Hive腳本任務調度管理295
9.5本章小結299
9.6課後習題299
第10章Sqoop數據遷移301
10.1Sqoop概述301
10.1.1Sqoop簡介301
10.1.2Sqoop原理302
10.2Sqoop安裝配置303
10.3Sqoop命令介紹305
10.4Sqoop數據的導入306
10.4.1數據準備307
10.4.2MySQL導入HDFS 308
10.4.3增量導入310
10.4.4MySQL導入Hive …311
10.4.5MySQL過濾導入HDFS312
10.5Sqoop數據的導出314
10.6本章小結315
10.7課後習題316
第11章綜合項目——網站流量日誌
數據分析系統31711.1系統概述317
11.1.1系統背景介紹317
11.1.2需求分析317
11.1.3系統架構318
11.2模組開發319
11.3本章小結319

相關詞條

熱門詞條

聯絡我們