Hadoop大數據技術開發實戰

內容簡介

本書以Hadoop及其周框線架為主線，介紹了整個Hadoop生態系統主流的大數據開發技術。全書共16章，第1章講解了VMware中CentOS 7作業系統的安裝；第2章講解了大數據開發之前對作業系統集群環境的配置；第3~16章講解了Hadoop生態系統各框架HDFS、MapReduce、YARN、ZooKeeper、HBase、Hive、Sqoop和數據實時處理系統Flume、Kafka、Storm、Spark以及分散式搜尋系統Elasticsearch等的基礎知識、架構原理、集群環境搭建，同時包括常用的Shell命令、API操作、源碼剖析，並通過實際案例加深對各個框架的理解與套用。通過閱讀本書，讀者即使沒有任何大數據基礎，也可以對照書中的步驟成功搭建屬於自己的大數據集群並獨立完成項目開發。

本書可作為Hadoop新手入門的指導書，也可作為大數據開發人員的隨身手冊以及大數據從業者的參考用書。

圖書目錄

第1章 VMware中安裝CentOS 7 1

1.1 下載CENTOS 7鏡像檔案 1

1.2 新建虛擬機 5

1.3 安裝作業系統 9

第2章 CentOS 7集群環境配置 16

2.1 系統環境配置 16

2.1.1 新建用戶 17

2.1.2 修改用戶許可權 17

2.1.3 關閉防火牆 17

2.1.4 設定固定IP 18

2.1.5 修改主機名 22

2.1.6 新建資源 23

2.2 安裝JDK 23

2.3 克隆虛擬機 25

2.4 配置主機IP映射 29

第3章 Hadoop 31

3.1 HADOOP簡介 31

3.1.1 Hadoop生態系統架構 32

3.1.2 Hadoop 1.x與2.x的架構對比 33

3.2 YARN基本架構及組件 34

3.3 YARN工作流程 37

3.4 配置集群各節點SSH無密鑰登錄 38

3.4.1 無密鑰登錄原理 38

3.4.2 無密鑰登錄操作步驟 39

3.5 搭建HADOOP 2.X分散式集群 41

第4章 HDFS 48

4.1 HDFS簡介 48

4.1.1 設計目標 49

4.1.2 總體架構 49

4.1.3 主要組件 50

4.1.4 檔案讀寫 53

4.2 HDFS命令行操作 54

4.3 HDFS WEB界面操作 57

4.4 HDFS JAVA API操作 59

4.4.1 讀取數據 59

4.4.2 創建 61

4.4.3 創建檔案 62

4.4.4 刪除檔案 63

4.4.5 遍歷檔案和 64

4.4.6 獲取檔案或的元數據 65

4.4.7 上傳本地檔案 66

4.4.8 下載檔案到本地 66

第5章 MapReduce 68

Hadoop大數據技術開發實戰

基本介紹

內容簡介

圖書目錄

相關詞條

熱門詞條