基於Hadoop與Spark的大數據開發實戰

基於Hadoop與Spark的大數據開發實戰

《基於Hadoop與Spark的大數據開發實戰》是2018年人民郵電出版社出版的圖書。

基本介紹

  • 中文名:基於Hadoop與Spark的大數據開發實戰
  • 作者:肖睿 丁科 吳剛山
  • 出版時間:2018年
  • 出版社:人民郵電出版社
  • ISBN:9787115477644
  • 開本:16 開
  • 裝幀:平裝-膠訂
編輯推薦,內容簡介,圖書目錄,

編輯推薦

1、選取知識點核心實用,以網際網路 實現終身學習 2、以企業需求為設計導向,以任務驅動為講解方式 3、以案例為主線組織知識點,以實戰項目來提升技術 4、充分考慮學習者的認知曲線,由淺入深,邊講邊練

內容簡介

大數據技術讓我們以一種前所未有的方式,對海量數據進行分析,從中獲得有巨大價值的產品和服務,*終形成變革之力。本書圍繞Hadoop和Spark兩個主流大數據技術進行講解,主要內容包括Hadoop環境配置、Hadoop分散式檔案系統(HDFS)、Hadoop分散式計算框架MapReduce、Hadoop資源調度框架YARN與Hadoop新特性、Hadoop分散式資料庫HBase、數據倉庫Hive、大數據離線處理輔助系統、Spark Core、Spark SQL、Spark Streaming等知識。 本書緊密結合實際套用,運用大量案例說明和實踐,提煉含金量十足的開發經驗。另外,本書配以多元的學習資源和支持服務,包括視頻教程、案例素材下載、學習交流社區、討論組等學習內容,為讀者帶來全方位的學習體驗。

圖書目錄

序言
前言
關於引用作品的著作權聲明
第 1章Hadoop初體驗 1
任務1初識大數據 2
1.1.1 大數據基本概念 2
1.1.2 大數據帶來的挑戰 3
任務2初識Hadoop 3
1.2.1 Hadoop概述 4
1.2.2 Hadoop生態圈 6
1.2.3 Hadoop套用案例 8
任務3安裝Hadoop平台 9
1.3.1 安裝虛擬機 10
1.3.2 安裝Linux系統 13
1.3.3 安裝Hadoop偽分散式環境 30
本章總結 34
本章練習 34
第 2章Hadoop分散式檔案系統 35
任務1HDFS入門 36
2.1.1 認識HDFS 36
2.1.2 HDFS基礎 38
2.1.3 HDFS架構 40
任務2HDFS基本操作 41
2.2.1 使用HDFS shell訪問 41
2.2.2 使用Java API訪問 45
任務3HDFS運行原理 48
2.3.1 HDFS讀寫流程 49
2.3.2 HDFS副本機制 50
2.3.3 HDFS負載均衡 51
2.3.4 HDFS機架感知 52
任務4HDFS高級知識 53
2.4.1 Hadoop序列化機制 53
2.4.2 SequenceFile 58
2.4.3 MapFile 63
本章總結 65
本章練習 66
第3章Hadoop分散式計算框架 67
任務1認識MapReduce編程模型 68
3.1.1 MapReduce基礎 68
3.1.2 MapReduce編程模型 69
3.1.3 MapReduce詞頻統計編程實例 70
任務2MapReduce套用開發 75
3.2.1 MapReduce輸入/輸出類型 75
3.2.2 MapReduce輸入格式 76
3.2.3 MapReduce輸出格式 78
3.2.4 Combiner操作 79
3.2.5 Partitioner操作 82
3.2.6 自定義RecordReader 86
任務3MapReduce高級套用 92
3.3.1 使用MapReduce實現join操作 93
3.3.2 使用MapReduce實現排序 100
3.3.3 使用MapReduce實現二次排序 103
3.3.4 使用MapReduce合併小檔案 108
本章總結 113
本章練習 113
第4章Hadoop新特性 115
任務1初識YARN 116
4.1.1 YARN產生背景 116
4.1.2 YARN簡介 117
4.1.3 YARN架構設計 119
任務2了解HDFS新特性 121
4.2.1 HDFS NameNode 高可用機制 121
4.2.2 HDFS NameNode Federation 129
4.2.3 HDFS Snapshots 130
4.2.4 HDFS REST API 134
4.2.5 DistCp工具 134
任務3了解YARN新特性 135
4.3.1 ResourceManager自動重啟 135
4.3.2 ResourceManager高可用機制 136
本章總結 139
本章練習 139
第5章Hadoop分散式資料庫 141
任務1認識HBase 142
5.1.1HBase簡介 142
5.1.2 HBase體系結構 143
5.1.3HBase數據模型 145
5.1.4HBase的安裝 148
任務2HBase Shell操作 155
5.2.1 HBase Shell簡介 155
5.2.2 HBase Shell的使用 156
任務3HBase編程 162
5.3.1 開發HBase應用程式 162
5.3.2HBase數據存儲管理API 163
本章總結 175
本章練習 175
第6章Hadoop綜合實戰——音樂排行榜 177
任務1MapReduce與HBase的集成 178
6.1.1 MapReduce與HBase的集成環境 178
6.1.2 批量數據導入(Bulk Loading) 181
任務2HBase MapReduce API 182
6.2.1HBase MapReduce API 簡介 182
6.2.2 TableMapper的使用 183
6.2.3 TableReducer的使用 195
任務3實現音樂排行榜 197
6.3.1 程式的結構與實現 198
6.3.2 HBase資料庫設計最佳化 205
6.3.3 MapReduce全局共享數據 205
本章總結 207
本章練習 207
第7章數據倉庫Hive 209
任務1Hive基礎 210
7.1.1 認識Hive 210
7.1.2 Hive架構設計 211
7.1.3 Hive與Hadoop 212
7.1.4 Hive與傳統關係型資料庫 212
7.1.5 Hive數據存儲模型 213
7.1.6 Hive部署 213
任務2掌握Hive操作 214
7.2.1 Hive DDL 214
7.2.2 Hive DML 217
7.2.3 Hive shell 222
任務3Hive高級套用 223
7.3.1 Hive函式 224
7.3.2 Hive調優策略 227
本章總結 232
本章練習 232
第8章大數據離線處理輔助系統 233
任務1認識並使用數據遷移框架Sqoop 234
8.1.1 Sqoop簡介 234
8.1.2 使用Sqoop導入MySQL數據到HDFS 239
8.1.3 使用Sqoop導出HDFS數據到MySQL 246
8.1.4 使用Sqoop導入MySQL數據到Hive 248
8.1.5 Sqoop Job 250
任務2使用Azkaban實現工作流調度 250
8.2.1 Azkaban概述 250
8.2.2 Azkaban環境部署 252
8.2.3 Azkaban套用實例 256
本章總結 259
本章練習 259
第9章Spark基礎 261
任務1Spark入門 262
9.1.1 Spark簡介 262
9.1.2 Spark優勢 262
9.1.3 Spark生態圈 264
任務2Scala基礎 267
9.2.1 Scala簡介 268
9.2.2 Scala函式定義 271
9.2.3 Scala面向對象操作 272
9.2.4 Scala集合的使用 275
9.2.5 Scala高階函式 278
任務3編譯Spark 281
9.3.1 下載Spark源碼 281
9.3.2 編譯Spark源碼 282
任務4Spark初體驗 284
9.4.1 Spark環境部署 284
9.4.2 spark-shell 285
本章總結 286
本章練習 286
第 10章Spark Core 287
任務1Spark RDD 288
10.1.1 RDD介紹 288
10.1.2 RDD的創建 289
10.1.3 RDD的轉換運算元 291
10.1.4 RDD的動作運算元 293
10.1.5 RDD的依賴關係 295
任務2RDD高級套用 297
10.2.1 RDD快取機制 297
10.2.2 共享變數 300
10.2.3 Spark架構設計 302
任務3基於RDD的Spark應用程式開發 303
10.3.1 準備工作 303
10.3.2 詞頻計數實例 304
10.3.3 年齡統計實例 308
本章總結 309
本章練習 309
第 11章Spark SQL 311
任務1認識Spark SQL 312
11.1.1 SQL 312
11.1.2 SQL on Hadoop框架 312
11.1.3 Spark SQL簡介 314
任務2Spark SQL編程基礎 315
11.2.1 Spark SQL編程入口 315
11.2.2 DataFrame基礎 317
11.2.3 DataFrame編程實例 318
任務3Spark SQL編程進階 325
11.3.1 Spark SQL操作外部數據源 325
11.3.2 Spark SQL函式 329
11.3.3 Spark SQL調優 332
本章總結 334
本章練習 335
第 12章Spark Streaming 337
任務1流處理框架及Spark Streaming 338
12.1.1 流處理框架簡介 338
12.1.2 Spark Streaming簡介 340
任務2使用Spark Streaming編程 343
12.2.1 Spark Streaming核心 343
12.2.2 Spark Streaming編程實例 348
任務3Spark Streaming高級套用 352
12.3.1 使用Spark Streaming整合Flume 353
12.3.2 使用Spark Streaming整合Kafka 356
12.3.3 Spark Streaming最佳化策略 361
本章總結 363
本章練習 363
附錄 365

相關詞條

熱門詞條

聯絡我們