Hadoop大數據技術與套用

內容簡介

本書採用理論與實踐相結合的方式，全面介紹了Hadoop大數據技術。主要內容包括初識Hadoop大數據技術、Hadoop環境配置，分散式檔案系統HDFS、資源調度框架YARN、分散式計算框架MapReduce、大數據數據倉庫Hive、分散式資料庫HBase、查詢大型半結構化數據集的語言Pig、分散式日誌採集工具Flume、分散式資料庫與傳統資料庫數據相互轉換工具Sqoop。

圖書目錄

第1章　初識Hadoop大數據技術　1

1.1　大數據技術概述　1

1.1.1　大數據產生的背景　1

1.1.2　大數據的定義　2

1.1.3　大數據技術的發展　2

1.2　Google的“三駕馬車”　3

1.2.1　GFS的思想　3

1.2.2　MapReduce的思想　4

1.2.3　BigTable的思想　6

1.3　Hadoop概述　8

1.3.1　Hadoop對Google公司三篇論文思想的實現　8

1.3.2　Hadoop的發展歷史　9

1.3.3　Hadoop版本的演變　11

1.3.4　Hadoop的發行版本　12

1.3.5　Hadoop的特點　12

1.4　Hadoop生態圈　12

1.5　Hadoop的典型套用場景與套用架構　13

1.5.1　Hadoop的典型套用場景　13

1.5.2　Hadoop的典型套用架構　14

習題　15

第2章　Hadoop環境設定　16

2.1　安裝前準備　16

2.1.1　安裝虛擬機　17

2.1.2　安裝Ubuntu作業系統　20

2.1.3　關閉防火牆　22

2.1.4　SSH安裝　22

2.1.5　安裝Xshell及Xftp　22

2.1.6　安裝JDK　24

2.1.7　下載Hadoop並解壓　25

2.1.8　克隆主機　27

2.2　Hadoop的安裝　28

2.2.1　安裝單機模式　28

2.2.2　安裝偽分散式模式　29

2.2.3　安裝完全分散式模式　35

習題　41

實驗　搭建Hadoop偽分散式模式環境　42

第3章　HDFS　44

3.1　HDFS簡介　44

3.2　HDFS的組成與架構　45

3.2.1　NameNode　45

3.2.2　DataNode　46

3.2.3　SecondaryNameNode　46

3.3　HDFS的工作機制　47

3.3.1　機架感知與副本冗餘存儲策略　47

3.3.2　檔案讀取　49

3.3.3　檔案寫入　50

3.3.4　數據容錯　52

Hadoop大數據技術與套用

基本介紹

內容簡介

圖書目錄

相關詞條

熱門詞條