企業大數據處理實戰派——基於阿里雲大數據平台

內容簡介

本書基於作者多年的教學與實踐經驗編寫，重點介紹阿里雲大數據體系的核心原理與架構，內容涉及開發、運維、管理與架構。全書分為4篇，共13章。

第1篇大數據技術基礎

第1章大數據核心理論基礎與架構 2

1.1 什麼是大數據 2

1.1.1 大數據的基本概念和特性 2

1.1.2 大數據平台的核心問題——存儲與計算 4

1.2 大數據的理論基礎 6

1.2.1 大數據的分散式存儲 6

1.2.2 大數據的分散式計算 9

1.3 大數據技術與數據倉庫 12

1.3.1 什麼是數據倉庫 12

1.3.2 基於大數據技術實現的數據倉庫 13

1.4 基於開源大數據組件的大數據平台架構 15

1.4.1 數據源層 16

1.4.2 數據採集層 16

1.4.3 大數據平台層 16

1.4.4 數據倉庫層 17

1.4.5 套用層 17

1.5 自建大數據平台與租賃大數據平台 17

1.5.1 為什麼推薦使用租賃的大數據平台 17

1.5.2 為什麼選擇阿里雲大數據平台 18

1.6 阿里雲大數據生態圈體系 18

1.6.1 阿里雲大數據基礎組件 19

1.6.2 基於阿里雲大數據基礎組件的數加平台 24

第2章阿里雲大數據技術基礎——開源大數據技術生態圈 27

2.1 開源大數據技術生態圈簡介 27

2.1.1 面向離線數據的存儲計算引擎Hadoop生態圈體系及其組件27

2.1.2 面向批處理的大數據計算引擎Spark生態圈體系及其組件 29

2.1.3 面向流處理的大數據計算引擎Flink生態圈體系及其組件 30

2.2 面向離線數據的存儲計算引擎Hadoop快速上手 32

2.2.1 【實戰】部署Hadoop集群 33

2.2.2 【實戰】使用Hadoop檔案系統HDFS存儲數據 38

2.2.3 【實戰】使用Hadoop離線計算引擎MapReduce處理數據 46