Hadoop+Spark大數據分析實戰

內容簡介

本書是Hadoop + Spark大數據分析技術入門書，基於Hadoop和Spark兩大框架體系的3.2版本，以通俗易懂的方式介紹Hadoop + Spark原生態組件的原理、集群搭建、實戰操作，以及整個Hadoop生態系統主流的大數據分析技術。本書共分14章。第1章講解Hadoop框架及新版本特性，並詳細講解大數據分析環境的搭建工作，包括Linux作業系統的安裝、SSH工具使用和配置等；第2章講解Hadoop偽分散式的安裝和開發體驗，使讀者熟悉Hadoop大數據開發兩大核心組件，即HDFS和MapReduce；第3~12章講解Hadoop生態系統各框架HDFS、MapReduce、輸入輸出、Hadoop集群配置、高可用集群、HBase、Hive、數據實時處理系統Flume，以及Spark框架數據處理、機器學習等實戰技術，並通過實際案例加深對各個框架的理解與套用；

圖書目錄

第1章大數據與Hadoop 1

1.1 什麼是大數據 1

1.2 大數據的來源 2

1.3 如何處理大數據 3

1.3.1 數據分析與挖掘 3

1.3.2 基於雲平台的分散式處理 4

1.4 Hadoop 3新特性 6

1.5 虛擬機與Linux作業系統的安裝 7

1.5.1 VirtualBox虛擬機的安裝 7

1.5.2 Linux作業系統的安裝 8

1.6 SSH工具與使用 14

1.7 Linux統一設定 16

1.8 本章小結 17

第2章 Hadoop偽分散式集群 18

2.1 安裝獨立運行的Hadoop 19

2.2 Hadoop偽分散式環境準備 21

2.3 Hadoop偽分散式安裝 25

2.4 HDFS操作命令 31

2.5 Java項目訪問HDFS 33

2.6 winutils 38

2.7 快速MapReduce程式示例 39

2.8 本章小結 42

第3章 HDFS分散式檔案系統 43

3.1 HDFS的體系結構 43

3.2 NameNode的工作 44

3.3 SecondaryNameNode 49

3.4 DataNode 50

3.5 HDFS的命令 51

3.6 RPC遠程過程調用 52

3.7 本章小結 53

第4章分散式運算框架MapReduce 55

4.1 MapReduce的運算過程 55

4.2 WordCount示例 57

Hadoop+Spark大數據分析實戰

基本介紹

內容簡介

圖書目錄

相關詞條

熱門詞條