《Hadoop + Spark生態系統操作與實戰指南》是2017年9月1日清華大學出版社出版的圖書,作者是餘輝。
基本介紹
- 書名:Hadoop + Spark生態系統操作與實戰指南
- 作者:餘輝
- 出版社:清華大學出版社
- 出版時間:2017年09月01日
- 定價:69 元
- ISBN:9787302479673
內容簡介,圖書目錄,
內容簡介
本書用於Hadoop+Spark快速上手,全面解析Hadoop和Spark生態系統,通過原理解說和實例操作每一個組件,讓讀者能夠輕鬆跨入大數據分析與開發的大門。
圖書目錄
第1章Hadoop概述1
1.1Hadoop簡介1
1.2Hadoop版本和生態系統3
1.3MapReduce簡介7
1.4HDFS簡介8
1.5Eclipse+Java開發環境搭建10
1.5.1Java安裝10
1.5.2Maven安裝11
1.5.3Eclipse安裝和配置12
1.5.4Eclipse創建Maven項目16
1.5.5Eclipse其餘配置19
1.6小結21
第2章Hadoop集群搭建22
2.1虛擬機簡介22
2.2虛擬機配置24
2.3Linux系統設定31
2.4Apache版本Hadoop集群搭建36
2.5CDH版本Hadoop集群搭建44
2.5.1安裝前期準備44
2.5.2ClouderaManager安裝45
2.5.3CDH安裝46
2.6小結55
第3章Hadoop基礎與原理56
3.1MapReduce原理介紹56
3.1.1MapReduce的框架介紹56
3.1.2MapReduce的執行步驟58
3.2HDFS原理介紹59
3.2.1HDFS是什麼59
3.2.2HDFS架構介紹59
3.3HDFS實戰62
3.3.1HDFS客戶端的操作62
3.3.2Java操作HDFS65
3.4YARN原理介紹69
3.5小結71
第4章ZooKeeper實戰72
4.1ZooKeeper原理介紹72
4.1.1ZooKeeper基本概念72
4.1.2ZooKeeper工作原理73
4.1.3ZooKeeper工作流程76
4.2ZooKeeper安裝78
4.3ZooKeeper實戰80
4.3.1ZooKeeper客戶端的操作80
4.3.2Java操作ZooKeeper81
4.3.3Scala操作ZooKeeper85
4.4小結87
第5章MapReduce實戰88
5.1前期準備88
5.2查看YARN上的任務95
5.3載入配置檔案95
5.4MapReduce實戰96
5.5小結121
第6章HBase實戰122
6.1HBase簡介及架構122
6.2HBase安裝127
6.3HBase實戰129
6.3.1HBase客戶端的操作129
6.3.2Java操作HBase132
6.3.3Scala操作HBase136
6.4小結140
第7章Hive實戰141
7.1Hive介紹和架構141
7.2Hive數據類型和表結構143
7.3Hive分區、桶與傾斜144
7.4Hive安裝146
7.5Hive實戰148
7.5.1Hive客戶端的操作148
7.5.2Hive常用命令154
7.5.3Java操作Hive155
7.6小結161
第8章Scala實戰162
8.1Scala簡介與安裝162
8.2IntelliJIDEA開發環境搭建164
8.2.1IntelliJIDEA簡介164
8.2.2IntelliJIDEA安裝164
8.2.3軟體配置166
8.3IntelliJIDEA建立Maven項目171
8.4基礎語法176
8.5函式179
8.6控制語句181
8.7函式式編程184
8.8模式匹配189
8.9類和對象191
8.10Scala異常處理194
8.11Trait(特徵)195
8.12Scala檔案I/O196
8.13作業198
8.13.1九九乘法表198
8.13.2冒泡排序199
8.13.3設計模式Command200
8.13.4集合對稱判斷202
8.13.5綜合題204
8.14小結206
第9章Flume實戰207
9.1Flume概述207
9.2Flume的結構208
9.3Flume安裝211
9.4Flume實戰212
9.5小結214
第10章Kafka實戰215
10.1Kafka概述215
10.1.1簡介215
10.1.2使用場景217
10.2Kafka設計原理218
10.3Kafka主要配置222
10.4Kafka客戶端操作224
10.5Java操作Kafka226
10.5.1生產者226
10.5.2消費者228
10.6Flume連線Kafka229
10.7小結233
第11章Spark實戰234
11.1Spark概述234
11.2Spark基本概念234
11.3Spark運算元實戰及功能描述238
11.3.1Value型Transformation運算元238
11.3.2Key-Value型Transformation運算元242
11.3.3Actions運算元245
11.4SparkStreaming實戰248
11.5SparkSQL和DataFrame實戰253
11.6小結266
第12章大數據網站日誌分析項目267
12.1項目介紹267
12.2網站離線項目267
12.2.1業務框架圖267
12.2.2子服務“趨勢分析”詳解268
12.2.3表格的設計272
12.2.4提前準備274
12.2.5項目步驟287
12.3網站實時項目297
12.3.1業務框架圖297
12.3.2子服務“當前線上”詳解297
12.3.3表格的設計302
12.3.4提前準備304
12.3.5項目步驟327
12.4小結337