圖解大數據分析

《圖解大數據分析》是2023年化學工業出版社出版的圖書。

基本介紹

  • 中文名:圖解大數據分析
  • 出版時間:2023年7月
  • 出版社:化學工業出版社
  • ISBN:9787122431943
內容簡介,圖書目錄,

內容簡介

本書通過大量的繪圖和詳細的說明,從技術層面以簡單易懂的形式講述大數據分析。這是一本從系統結構搭建到實際開發逐步推進的教科書。書中的知識點包括大數據分析時所需的分散式處理、機器學習,以及分散式存儲、分散式計算、開發時可能遇到的瓶頸,還包括大數據的收集、積累、活用以及元數據的使用與管理等。本書適合大數據領域的廣大愛好者、商務人士和工程技術人員用於了解、學習、掌握、運用大數據技術進行大數據分析,也適合作為該領域的職業院校和高校本科相關專業的教材及研究生輔助教材。

圖書目錄

第1章 大數據分析概述
1.1 大數據和分散式處理
網路的普及導致了大量數據的增加 002
1.2 非結構化數據的增加和機器學習
分析文本、聲音、圖像等數據 006
1.3 大數據分析系統
在分散式處理與機器學習驅動下將數據利潤化 010
1.4 企業中大數據活用的各個階段
大數據分析要從一小步開始 014
1.5 活用大數據分析時所需的三個角色
數據業務員、科學分析員、工程技術員 020
1.6 工程技術員的價值在哪裡
為什麼完成了驗證實驗後仍然無法實現真正的系統化 026
第2章 大數據分析系統的結構
2.1 整體結構概述
數據的收集、積累、活用 032
2.2 數據的生成和收集
利用業務系統生成數據,利用分析系統收集數據 036
2.3 數據的積累
數據池與數據倉庫 040
2.4 數據的活用
套用於企業決策和增加利潤 044
第3章 分散式處理的基礎知識
3.1 對瓶頸問題的分析
系統性能上的一些問題 048
3.2 上述三種瓶頸以外的與性能相關的問題
記憶體枯竭,以及沒有瓶頸但性能仍然很差的原因 052
3.3 分散式存儲
消除磁碟瓶頸的技術 056
3.4 分散式計算
消除處理器瓶頸的技術 060
3.5 分散式系統的網路
消除網路的瓶頸 064
3.6 資源管理器
支撐分散式處理的資源管理 068
3.7 分散式處理的開發方式
Hadoop、自行開發、雲服務 070
第4章 機器學習的基礎知識
4.1 機器學習
對變換成向量的數據進行處理的函式 076
4.2 數據的準備和預處理
機器學習的開發過程(前篇) 082
4.3 模型預估與系統化
機器學習的開發過程(中篇) 086
4.4 正式發布與性能提升
機器學習的開發過程(後篇) 090
4.5 深度學習
引發機器學習熱潮的火種 094
4.6 機器學習工具
工程師的幾個重要工具 098
4.7 科學分析員與工程技術員的不同角色
系統化與數據準備等大量的工作 104
第5章 大數據的收集
5.1 批數據收集和流數據收集
數據收集的種類 108
5.2 檔案數據的收集與檔案格式
檔案形式數據的收集 112
5.3 基於SQL的數據收集
從資料庫中收集數據(前篇) 116
5.4 基於數據輸出和同步更新日誌的數據收集
從資料庫中收集數據(後篇) 120
5.5 API數據收集與刮擦收集
其他的批數據收集方式 124
5.6 批數據收集的開發方法
可以利用ETL軟體製品也可以自行開發 128
5.7 分散式佇列與流處理
流數據收集概述 132
5.8 流數據收集中的分散式佇列
了解分散式佇列的特性 136
5.9 生產者、分散式佇列和消費者
流數據收集的開發方法 140
5.10 應對數據結構的變化
數據結構會隨著業務的發展而變化 143
第6章 大數據的積累
6.1 數據池與數據倉庫
要分別準備好原始數據和用於分析的數據 148
6.2 分析型資料庫
操作型資料庫與分析型資料庫的不同之處 152
6.3 面向列的數據格式化
在列方向上壓縮數據後實現分析處理的高速化 156
6.4 SQL on Hadoop
分析型DB的選擇方法(前篇) 160
6.5 DWH製品
分析型DB的選擇方法(後篇) 166
第7章 大數據的活用
7.1 數據市場
根據不同目的來加工數據 172
7.2 即席分析
可以自主地分析數據並進行決策 178
7.3 構築即席分析環境
支持數據利用者和進行資源管理的必要性 182
7.4 數據可視化
任何人都可以基於數據做出決策 186
7.5 數據應用程式
網際網路企業的活用案例 190
第8章 元數據的管理
8.1 整體概念和靜態元數據
元數據管理(前篇) 194
8.2 動態元數據和元數據管理的實現方法
元數據管理(後篇) 198
8.3 數據結構管理
如何定義數據 202
8.4 數據沿襲管理
數據從何而來,又去往何處 208
8.5 數據新鮮度的管理
表明這是什麼時候的數據 212
後記 216

相關詞條

熱門詞條

聯絡我們