Hadoop與Spark入門

內容簡介

本書為一本大數據技術的入門書籍，介紹Hadoop大數據平台和Spark大數據平台及相關工具的原理，以及如何進行部署和簡單開發。

全書包含13章: 第1、2章介紹如何為深入學習Hadoop和Spark做環境準備，包括VMware虛擬機的創建和CentOS作業系統安裝。第3～6章介紹Hadoop大數據平台的基本原理，包括HDFS、MapReduce計算模型、HBase資料庫，以及Hive數據倉庫的原理、部署方法和開發技術。第7～11章介紹Spark大數據平台的基本原理，包括彈性分散式數據集、轉換與動作操作、寬依賴與窄依賴、有向無環圖表達的作業及其處理過程等，並且介紹了Spark Core、Spark SQL、Spark MLlib、Spark GraphX的部署和開發技術。最後兩章介紹了Flume（第12章）和Kafka（第13章）兩個工具，Flume用於大量日誌的收集和處理，Kafka用於對大量快速到達的數據進行及時、可靠、暫時的存儲。

本書適合高等院校高年級本科生以及碩士研究生使用，也可以供非計算機專業學生及相關領域技術人員參考。

圖書目錄

第1章VMware與虛擬機1

1.1VMware簡介1

1.2VMware的安裝2

1.3VMware的網路配置2

1.3.1VMnet0網卡配置2

1.3.2VMnet1網卡配置3

1.3.3VMnet8網卡配置3

1.4Windows環境下對VMnet8的DNS進行配置6

1.5利用管理員許可權編輯網卡7

1.6總結7

1.7思考題8

參考文獻8

第2章CentOS作業系統安裝9

2.1新建VMware虛擬機9

2.2安裝CentOS14

2.3配置Yum18

2.4為CentOS安裝圖形用戶界面20

2.5CentOS的網路配置20

2.5.1虛擬機的網路配置20

2.5.2在CentOS作業系統里對網卡進行設定21

2.6Samba配置23

2.7配置SSHD26

2.8重新啟動虛擬機需要執行的命令27

2.9思考題28

第3章Hadoop入門29

3.1Hadoop簡介29

3.2HDFS30

3.2.1寫檔案31

3.2.2讀檔案32

3.2.3Secondary NameNode介紹33

3.3MapReduce工作原理34

3.3.1MapReduce執行引擎35

3.3.2MapReduce計算模型37

3.3.3Hadoop 1.0的套用38

3.4Hadoop生態系統38

Hadoop與Spark入門

基本介紹

內容簡介

圖書目錄

相關詞條

熱門詞條