大數據分析——數據倉庫項目實戰

大數據分析——數據倉庫項目實戰

《大數據分析——數據倉庫項目實戰》是2020年9月電子工業出版社出版的圖書,作者是尚矽谷IT教育。

基本介紹

  • 中文名:大數據分析——數據倉庫項目實戰
  • 別名:數據倉庫項目實戰
  • 作者:尚矽谷IT教育
  • 出版時間:2020年9月
  • 出版社:電子工業出版社
  • 頁數:396 頁
  • ISBN:9787121396007
  • 定價:100 元
  • 開本:16 開
內容簡介,圖書目錄,

內容簡介

本書按照需求規劃、需求實現、需求可視化的流程進行編排,遵循項目開發的實際流程,全面介紹了數據倉庫的搭建過程。在整個數據倉庫的搭建過程中,本書介紹了主要組件的安裝部署過程、需求實現的具體思路、部分問題的解決方案等,並在其中穿插了許多與大數據和數據倉庫相關的理論知識,包括大數據概論、數據倉庫概論、電商業務概述、數據倉庫理論準備、數據倉庫建模等。
本書從邏輯上可以分為三部分
第一部分是大數據與數據倉庫概論及項目需求描述,主要介紹了數據倉庫的概念、套用場景和搭建需求;
第二部分是項目部署的環境準備,介紹了如何從零開始搭建一個完整的數據倉庫環境;
第三部分是需求模組實現,針對不同需求分模組進行實現,是本書的重點部分。
讀者定位
本書適合具有一定的編程基礎並對大數據感興趣的讀者閱讀。通過閱讀本書,讀者可以快速了解數據倉庫,全面掌握數據倉庫的相關技術。

圖書目錄

第1章 大數據與數據倉庫概論 1
1.1 大數據概論 1
1.1.1 什麼是大數據 1
1.1.2 大數據生態圈簡介 2
1.1.3 大數據套用場景 3
1.2 數據倉庫概論 4
1.2.1 什麼是數據倉庫 4
1.2.2 數據倉庫能幹什麼 4
1.2.3 數據倉庫的特點 5
1.3 學前導讀 6
1.3.1 學習的基礎要求 6
1.3.2 你將學到什麼 7
1.4 本章總結 7
第2章 項目需求描述 8
2.1 任務概述 8
2.1.1 產品描述 9
2.1.2 系統目標 9
2.1.3 系統功能結構 9
2.1.4 系統流程圖 10
2.2 業務描述 10
2.2.1 採集模組業務描述 10
2.2.2 數據倉庫需求業務描述 16
2.2.3 數據可視化業務描述 17
2.3 系統運行環境 17
2.3.1 硬體環境 17
2.3.2 軟體環境 18
2.4 本章總結 20
第3章 項目部署的環境準備 21
3.1 Linux環境準備 21
3.1.1 VMware安裝 21
3.1.2 CentOS安裝 21
3.1.3 遠程終端安裝 31
3.2 Linux環境配置 34
3.2.1 網路配置 34
3.2.2 網路IP位址配置 35
3.2.3 主機名配置 36
3.2.4 防火牆配置 37
3.2.5 一般用戶設定 38
3.3 Hadoop環境搭建 38
3.3.1 虛擬機環境準備 39
3.3.2 JDK安裝 45
3.3.3 Hadoop安裝 46
3.3.4 Hadoop分散式集群部署 47
3.3.5 配置Hadoop支持LZO壓縮 52
3.3.6 配置Hadoop支持Snappy壓縮 53
3.4 本章總結 54
第4章 用戶行為數據採集模組 55
4.1 日誌生成 55
4.2 採集日誌的Flume 57
4.2.1 Flume組件 58
4.2.2 Flume安裝 58
4.2.3 採集日誌Flume配置 59
4.2.4 Flume的ETL攔截器和日誌類型區分攔截器 61
4.2.5 採集日誌Flume啟動、停止腳本 67
4.3 訊息佇列Kafka 68
4.3.1 Zookeeper安裝 68
4.3.2 Zookeeper集群啟動、停止腳本 70
4.3.3 Kafka安裝 71
4.3.4 Kafka集群啟動、停止腳本 73
4.3.5 Kafka Topic相關操作 74
4.4 消費Kafka日誌的Flume 75
4.4.1 消費日誌Flume配置 75
4.4.2 消費日誌Flume啟動、停止腳本 78
4.5 採集通道啟動、停止腳本 79
4.6 本章總結 80
第5章 業務數據採集模組 81
5.1 電商業務概述 81
5.1.1 電商業務流程 81
5.1.2 電商常識 82
5.1.3 電商表結構 82
5.1.4 數據同步策略 89
5.2 業務數據採集 90
5.2.1 MySQL安裝 90
5.2.2 業務數據生成 92
5.2.3 業務數據建模 94
5.2.4 Sqoop安裝 96
5.2.5 業務數據導入數據倉庫 97
5.3 本章總結 109
第6章 數據倉庫搭建模組 110
6.1 數據倉庫理論準備 110
6.1.1 範式理論 110
6.1.2 關係模型與維度模型 113
6.1.3 星形模型、雪花模型與星座模型 114
6.1.4 表的分類 116
6.1.5 為什麼要分層 117
6.1.6 數據倉庫建模 118
6.1.7 業務術語 121
6.2 數據倉庫搭建環境準備 123
6.2.1 MySQL HA 123
6.2.2 Hive安裝 130
6.2.3 Tez引擎安裝 134
6.3 數據倉庫搭建——ODS層 138
6.3.1 創建資料庫 138
6.3.2 用戶行為數據 138
6.3.3 ODS層用戶行為數據導入腳本 141
6.3.4 業務數據 142
6.3.5 ODS層業務數據導入腳本 151
6.4 數據倉庫搭建——DWD層 154
6.4.1 用戶行為啟動日誌表解析 154
6.4.2 用戶行為事件表拆分 157
6.4.3 用戶行為事件表解析 167
6.4.4 業務數據維度表解析 189
6.4.5 業務數據事實表解析 195
6.4.6 拉鍊表構建之用戶維度表 209
6.4.7 DWD層數據導入腳本 214
6.5 數據倉庫搭建——DWS層 223
6.5.1 系統函式 223
6.5.2 用戶行為數據聚合 224
6.5.3 業務數據聚合 226
6.5.4 DWS層數據導入腳本 237
6.6 數據倉庫搭建——DWT層 246
6.6.1 設備主題寬表 247
6.6.2 會員主題寬表 249
6.6.3 商品主題寬表 251
6.6.4 優惠券主題寬表 254
6.6.5 活動主題寬表 256
6.6.6 DWT層數據導入腳本 258
6.7 數據倉庫搭建——ADS層 264
6.7.1 設備主題 264
6.7.2 會員主題 272
6.7.3 商品主題 275
6.7.4 行銷主題 279
6.7.5 ADS層數據導入腳本 283
6.8 結果數據導出腳本 291
6.9 會員主題指標獲取的全調度流程 293
6.9.1 Azkaban安裝 293
6.9.2 創建可視化的MySQL資料庫和表 300
6.9.3 編寫指標獲取調度流程 301
6.10 本章總結 306
第7章 數據可視化模組 307
7.1 模擬可視化數據 307
7.1.1 會員主題 307
7.1.2 地區主題 308
7.2 Superset部署 310
7.2.1 環境準備 310
7.2.2 Superset安裝 312
7.3 Superset使用 314
7.3.1 對接MySQL數據源 314
7.3.2 製作儀錶盤 317
7.4 本章總結 322
第8章 即席查詢模組 323
8.1 Presto 323
8.1.1 Presto特點 323
8.1.2 Presto安裝 324
8.1.3 Presto最佳化之數據存儲 328
8.1.4 Presto最佳化之查詢SQL 329
8.1.5 Presto注意事項 330
8.2 Druid 330
8.2.1 Druid簡介 330
8.2.2 Druid框架原理 331
8.2.3 Druid數據結構 332
8.2.4 Druid安裝(單機版) 333
8.3 Kylin 338
8.3.1 Kylin簡介 338
8.3.2 HBase安裝 339
8.3.3 Kylin安裝 341
8.3.4 Kylin使用 343
8.3.5 Kylin Cube構建原理 353
8.3.6 Kylin Cube構建最佳化 356
8.3.7 Kylin BI工具集成 360
8.4 即席查詢框架對比 367
8.5 本章總結 368
第9章 元數據管理模組 369
9.1 Atlas入門 369
9.1.1 Atlas概述 369
9.1.2 Atlas架構原理 370
9.2 Atlas安裝及使用 371
9.2.1 安裝前環境準備 371
9.2.2 集成外部框架 373
9.2.3 集群啟動 377
9.2.4 導入Hive元數據到Atlas 377
9.3 Atlas界面查看及使用 378
9.3.1 查看基本信息 378
9.3.2 查看血緣依賴關係 381
9.4 本章總結 386

相關詞條

熱門詞條

聯絡我們