基於Hadoop與Spark的大數據開發實戰

編輯推薦

1、選取知識點核心實用，以網際網路實現終身學習 2、以企業需求為設計導向，以任務驅動為講解方式 3、以案例為主線組織知識點，以實戰項目來提升技術 4、充分考慮學習者的認知曲線，由淺入深，邊講邊練

內容簡介

大數據技術讓我們以一種前所未有的方式，對海量數據進行分析，從中獲得有巨大價值的產品和服務，*終形成變革之力。本書圍繞Hadoop和Spark兩個主流大數據技術進行講解，主要內容包括Hadoop環境配置、Hadoop分散式檔案系統（HDFS）、Hadoop分散式計算框架MapReduce、Hadoop資源調度框架YARN與Hadoop新特性、Hadoop分散式資料庫HBase、數據倉庫Hive、大數據離線處理輔助系統、Spark Core、Spark SQL、Spark Streaming等知識。本書緊密結合實際套用，運用大量案例說明和實踐，提煉含金量十足的開發經驗。另外，本書配以多元的學習資源和支持服務，包括視頻教程、案例素材下載、學習交流社區、討論組等學習內容，為讀者帶來全方位的學習體驗。

圖書目錄

序言

前言

關於引用作品的著作權聲明

第　1章Hadoop初體驗　1

任務1初識大數據　2

1.1.1　大數據基本概念　2

1.1.2　大數據帶來的挑戰　3

任務2初識Hadoop　3

1.2.1　Hadoop概述　4

1.2.2　Hadoop生態圈　6

1.2.3　Hadoop套用案例　8

任務3安裝Hadoop平台　9

1.3.1　安裝虛擬機　10

1.3.2　安裝Linux系統　13

1.3.3　安裝Hadoop偽分散式環境　30

本章總結　34

本章練習　34

第　2章Hadoop分散式檔案系統　35

任務1HDFS入門　36

2.1.1　認識HDFS　36

2.1.2　HDFS基礎　38

2.1.3　HDFS架構　40

任務2HDFS基本操作　41

2.2.1　使用HDFS shell訪問　41

2.2.2　使用Java API訪問　45

任務3HDFS運行原理　48

2.3.1　HDFS讀寫流程　49

2.3.2　HDFS副本機制　50

2.3.3　HDFS負載均衡　51

2.3.4　HDFS機架感知　52

任務4HDFS高級知識　53

2.4.1　Hadoop序列化機制　53

2.4.2　SequenceFile　58

2.4.3　MapFile　63

本章總結　65

本章練習　66

第3章Hadoop分散式計算框架　67

基於Hadoop與Spark的大數據開發實戰

基本介紹

編輯推薦

內容簡介

圖書目錄

相關詞條

熱門詞條