Hadoop + Spark生態系統操作與實戰指南

《Hadoop + Spark生態系統操作與實戰指南》是2017年9月1日清華大學出版社出版的圖書，作者是餘輝。

基本介紹

書名：Hadoop + Spark生態系統操作與實戰指南
作者：餘輝
ISBN：9787302479673
定價：69元
出版時間：2017.09.01

內容簡介,目錄,

內容簡介

本書用於Hadoop+Spark快速上手，全面解析Hadoop和Spark生態系統，通過原理解說和實例操作每一個組件，讓讀者能夠輕鬆跨入大數據分析與開發的大門。

目錄

第1章Hadoop概述1

1.1Hadoop簡介1

1.2Hadoop版本和生態系統3

1.3MapReduce簡介7

1.4HDFS簡介8

1.5Eclipse+Java開發環境搭建10

1.5.1Java安裝10

1.5.2Maven安裝11

1.5.3Eclipse安裝和配置12

1.5.4Eclipse創建Maven項目16

1.5.5Eclipse其餘配置19

1.6小結21

第2章Hadoop集群搭建22

2.1虛擬機簡介22

2.2虛擬機配置24

2.3Linux系統設定31

2.4Apache版本Hadoop集群搭建36

2.5CDH版本Hadoop集群搭建44

2.5.1安裝前期準備44

2.5.2ClouderaManager安裝45

2.5.3CDH安裝46

2.6小結55

第3章Hadoop基礎與原理56

3.1MapReduce原理介紹56

3.1.1MapReduce的框架介紹56

3.1.2MapReduce的執行步驟58

3.2HDFS原理介紹59

3.2.1HDFS是什麼59

3.2.2HDFS架構介紹59

3.3HDFS實戰62

3.3.1HDFS客戶端的操作62

3.3.2Java操作HDFS65

3.4YARN原理介紹69

3.5小結71

第4章ZooKeeper實戰72

4.1ZooKeeper原理介紹72

4.1.1ZooKeeper基本概念72

4.1.2ZooKeeper工作原理73

4.1.3ZooKeeper工作流程76

4.2ZooKeeper安裝78

4.3ZooKeeper實戰80

4.3.1ZooKeeper客戶端的操作80

4.3.2Java操作ZooKeeper81

4.3.3Scala操作ZooKeeper85

4.4小結87

第5章MapReduce實戰88

5.1前期準備88

5.2查看YARN上的任務95

5.3載入配置檔案95

5.4MapReduce實戰96

5.5小結121

第6章HBase實戰122

6.1HBase簡介及架構122

6.2HBase安裝127

6.3HBase實戰129

6.3.1HBase客戶端的操作129

6.3.2Java操作HBase132

6.3.3Scala操作HBase136

6.4小結140

第7章Hive實戰141

7.1Hive介紹和架構141

7.2Hive數據類型和表結構143

7.3Hive分區、桶與傾斜144

7.4Hive安裝146

7.5Hive實戰148

7.5.1Hive客戶端的操作148

7.5.2Hive常用命令154

7.5.3Java操作Hive155

7.6小結161

第8章Scala實戰162

8.1Scala簡介與安裝162

8.2IntelliJIDEA開發環境搭建164

8.2.1IntelliJIDEA簡介164

8.2.2IntelliJIDEA安裝164

8.2.3軟體配置166

8.3IntelliJIDEA建立Maven項目171

8.4基礎語法176

8.5函式179

8.6控制語句181

8.7函式式編程184

8.8模式匹配189

8.9類和對象191

8.10Scala異常處理194

8.11Trait（特徵）195

8.12Scala檔案I/O196

8.13作業198

8.13.1九九乘法表198

8.13.2冒泡排序199

8.13.3設計模式Command200

8.13.4集合對稱判斷202

8.13.5綜合題204

8.14小結206

第9章Flume實戰207

9.1Flume概述207

9.2Flume的結構208

9.3Flume安裝211

9.4Flume實戰212

9.5小結214

第10章Kafka實戰215

10.1Kafka概述215

10.1.1簡介215

10.1.2使用場景217

10.2Kafka設計原理218

10.3Kafka主要配置222

10.4Kafka客戶端操作224

10.5Java操作Kafka226

10.5.1生產者226

10.5.2消費者228

10.6Flume連線Kafka229

10.7小結233

第11章Spark實戰234

11.1Spark概述234

11.2Spark基本概念234

11.3Spark運算元實戰及功能描述238

11.3.1Value型Transformation運算元238

11.3.2Key-Value型Transformation運算元242

11.3.3Actions運算元245

11.4SparkStreaming實戰248

11.5SparkSQL和DataFrame實戰253

11.6小結266

第12章大數據網站日誌分析項目267

12.1項目介紹267

12.2網站離線項目267

12.2.1業務框架圖267

12.2.2子服務“趨勢分析”詳解268

12.2.3表格的設計272

12.2.4提前準備274

12.2.5項目步驟287

12.3網站實時項目297

12.3.1業務框架圖297

12.3.2子服務“當前線上”詳解297

12.3.3表格的設計302

12.3.4提前準備304

12.3.5項目步驟327

12.4小結337

相關詞條

Hadoop + Spark生態系統操作與實戰指南
《Hadoop + Spark生態系統操作與實戰指南》是2017年9月1日清華大學出版社出版的圖書,作者是餘輝。...

熱門詞條

聯絡我們