Hadoop構建數據倉庫實踐

內容介紹

本書講述在流行的大數據分散式存儲和計算平台Hadoop上設計實現數據倉庫，將傳統數據倉庫建模與SQL開發的簡單性與大數據技術相結合，快速、高效地建立可擴展的數據倉庫及其套用系統。本書內容包括數據倉庫、Hadoop及其生態圈的相關概念，使用Sqoop從關係資料庫全量或增量抽取數據，使用HIVE進行數據轉換和裝載處理，使用Oozie調度作業周期性執行，使用Impala進行快速在線上數據分析，使用Hue將數據可視化，以及數據倉庫中的漸變維（SCD）、代理鍵、角色扮演維度、層次維度、退化維度、無事實的事實表、遲到的事實、累積的度量等常見問題在Hadoop上的處理等。本書適合資料庫管理員、大數據技術人員、Hadoop技術人員、數據倉庫技術人員，也適合高等院校和培訓機構相關專業的師生教學參考。

圖書目錄

第1章數據倉庫簡介

1.1什麼是數據倉庫1

1.1.1數據倉庫的定義1

1.1.2建立數據倉庫的原因3

1.2操作型系統與分析型系統5

1.2.1操作型系統5

1.2.2分析型系統8

1.2.3操作型系統和分析型系統對比9

1.3數據倉庫架構10

1.3.1基本架構10

1.3.2主要數據倉庫架構12

1.3.3運算元據存儲16

1.4抽取-轉換-裝載17

1.4.1數據抽取17

1.4.2數據轉換19

1.4.3數據裝載20

1.4.4開發ETL系統的方法21

1.4.5常見ETL工具21

1.5數據倉庫需求22

1.5.1基本需求22

1.5.2數據需求23

1.6小結24

第2章數據倉庫設計基礎

2.1關係數據模型25

2.1.1關係數據模型中的結構25

2.1.2關係完整性28

2.1.3規範化30

2.1.4關係數據模型與數據倉庫33

2.2維度數據模型34

2.2.1維度數據模型建模過程35

2.2.2維度規範化36

2.2.3維度數據模型的特點37

2.2.4星型模式38

2.2.5雪花模式40

2.3DataVault模型42

2.3.1DataVault模型簡介42

2.3.2DataVault模型的組成部分43

2.3.3DataVault模型的特點44

2.3.4DataVault模型的構建44

2.3.5DataVault模型實例46

2.4數據集市49

2.4.1數據集市的概念50

2.4.2數據集市與數據倉庫的區別50

2.4.3數據集市設計50

2.5數據倉庫實施步驟51

2.6小結54

第3章Hadoop生態圈與數據倉庫

Hadoop構建數據倉庫實踐

基本介紹

內容介紹

圖書目錄

相關詞條

熱門詞條