《Greenplum構建實時數據倉庫實踐》是清華大學出版社2022年出版的圖書,作者是王雪迎。
基本介紹
- 中文名:Greenplum構建實時數據倉庫實踐
- 作者:王雪迎
- 出版社:清華大學出版社
- 出版時間:2022年8月1日
- 定價:89 元
- ISBN:9787302611653
內容簡介,作者簡介,目錄,
內容簡介
本書詳解Greenplum數據倉庫構建與數據分析技術,配套示例源碼。本書共分10章。內容包括數據倉庫簡介、數據倉庫設計基礎、Greenplum與數據倉庫、Greenplum安裝部署、實時數據同步、實時數據裝載、維度表技術、事實表技術、Greenplum運維與監控、集成機器學習庫MADlib。本書適合Greenplum初學者、大數據分析系統設計與開發、數據倉庫系統設計與開發、DBA、架構師等相關技術人員閱讀,也適合高等院校大數據相關專業的師生作為實訓教材。
作者簡介
王雪迎 ,畢業於中國地質大學計算機專業,高級工程師,20年資料庫、數據倉庫相關技術工作經驗。先後供職於北京現代商業信息技術有限公司、北京線上九州信息技術服務有限公司、華北計算技術研究所、北京優貝線上網路科技有限公司,擔任DBA、數據架構師等職位。著有圖書《Greenplum構建實時數據倉庫實踐》《Hadoop構建數據倉庫實踐》《HAWQ數據倉庫與數據挖掘實戰》《SQL機器學習庫MADlib技術解析》《MySQL高可用實踐》。
目錄
第1章 數據倉庫簡介 1
1.1 什麼是數據倉庫 1
1.1.1 數據倉庫的定義 2
1.1.2 建立數據倉庫的原因 3
1.2 操作型系統與分析型系統 5
1.2.1 操作型系統 5
1.2.2 分析型系統 7
1.2.3 操作型系統和分析型系統的對比 8
1.3 抽取—轉換—裝載 10
1.3.1 數據抽取 10
1.3.2 數據轉換 12
1.3.3 數據裝載 13
1.3.4 開發ETL系統的方法 13
1.4 數據倉庫架構 14
1.4.1 基本架構 14
1.4.2 主要數據倉庫架構 15
1.4.3 操作型數據存儲 19
1.5 實時數據倉庫 19
1.5.1 流式處理 20
1.5.2 實時計算 21
1.5.3 實時數據倉庫解決方案 24
1.6 小結 26
第2章 數據倉庫設計基礎 27
2.1 關係數據模型 27
2.1.1 關係數據模型中的結構 27
2.1.2 關係完整性 30
2.1.3 關係資料庫語言 31
2.1.4 規範化 32
2.1.5 關係數據模型與數據倉庫 34
2.2 維度數據模型 36
2.2.1 維度數據模型建模過程 36
2.2.2 維度規範化 37
2.2.3 維度數據模型的特點 38
2.2.4 星型模式 39
2.2.5 雪花模式 41
2.3 Data Vault模型 43
2.3.1 Data Vault模型簡介 43
2.3.2 Data Vault模型的...