大數據技術基礎套用教程

大數據技術基礎套用教程

《大數據技術基礎套用教程》是清華大學出版社2020年出版圖書,作者周奇,張純,蘇絢,邱新

基本介紹

  • 中文名:大數據技術基礎套用教程
  • 作者:周奇,張純,蘇絢,邱新
  • 出版社:清華大學出版社
  • 出版時間:2020年11月1日
  • ISBN:9787302561651 
內容簡介,目錄,

內容簡介

全書以理論夠用、實用,實踐為第一的原則,採用案例方式講授大數據技術基礎的套用,使讀者能夠快速、輕鬆地掌握大數據技術基礎。內容包括大數據概述;大數據處理架構Hadoop;分散式檔案系統HDFS;分散式資料庫HBase;NoSQL資料庫;雲資料庫;MapReduce;Hadoop再探討;Spark;流計算;圖計算;數據可視化;等基本原理和套用技術整合。

目錄

第1章大數據基礎1
1.1什麼是大數據1
1.1.1大數據的發展歷程1
1.1.2大數據的定義2
1.2大數據的特徵2
1.2.1Volume(數量)3
1.2.2Variety(種類)3
1.2.3Velocity(速度)3
1.2.4Value(價值)4
1.2.5Veracity(真實性)4
1.3大數據的關鍵技術4
1.3.1大數據採集技術4
1.3.2大數據預處理技術7
1.3.3大數據存儲及管理技術7
1.3.4大數據分析及挖掘技術8
1.3.5大數據展現和套用技術9
1.4大數據與雲計算9
1.4.1雲計算定義9
1.4.2雲計算的特徵9
1.4.3雲計算和大數據的關係10
1.4.4雲計算對大數據的影響10
1.5大數據的套用11
1.5.1電商行業11
1.5.2金融行業11
1.5.3醫療行業12
1.5.4農牧漁行業12
1.5.5生物技術13
1.5.6智慧城市13
1.5.7電信行業13
1.5.8社交媒體分析14
本章小結14
實驗114
第2章大數據軟體架構17
2.1Hadoop架構17
2.1.1Hadoop簡介17
2.1.2Hadoop家族成員18
2.1.3Hadoop 2.0生態系統的集群架構20
2.1.4Hadoop運行環境20
2.1.5Hadoop集群的安裝與部署22
2.2Spark架構29
2.2.1Spark簡介29
2.2.2Spark集群模式31
2.2.3Spark核心組件33
2.2.4Spark運行環境35
2.2.5Spark的安裝35
2.3實時流處理架構36
2.3.1實時計算的概念36
2.3.2實時計算的相關技術36
2.3.3Apache Storm38
2.3.4Apache Samza38
2.3.5Lambda架構39
2.4框架的選擇41
2.4.1框架的種類41
2.4.2框架的選擇43
本章小結43
實驗244
第3章大數據存儲45
3.1大數據存儲概述45
3.1.1傳統存儲系統時代45
3.1.2大數據時代的新挑戰46
3.2大數據存儲方式47
3.2.1分散式存儲47
3.2.2雲存儲48
3.2.3大數據存儲的其他需求49
3.3大數據的存儲技術50
3.3.1分散式檔案存儲50
3.3.2NoSQL資料庫53
3.3.3NewSQL資料庫56
3.3.4雲存儲技術57
3.4大數據存儲的可靠性59
3.4.1大數據可靠性的風險60
3.4.2提高大數據可靠性的方法60
本章小結61
實驗361
第4章大數據計算63
4.1大數據計算基本框架63
4.2批處理計算64
4.2.1Hadoop64
4.2.2DAG模型66
4.3流計算69
4.3.1流計算概述69
4.3.2Storm及Trident70
4.4互動式分析計算72
4.4.1概述72
4.4.2Hive73
4.4.3SQL引擎Calcite74
本章小結75
實驗475
第5章大數據分析77
5.1大數據分析概述77
5.2大數據分析基礎78
5.2.1大數據分析基本分類78
5.2.2大數據分析步驟79
5.2.3異步分析80
5.3大數據預測分析80
5.3.1什麼是預測分析80
5.3.2預測分析的作用80
5.3.3數據具有內在預測性82
5.4大數據分析套用83
5.4.1大數據分析的主要套用行業83
5.4.2大數據分析套用應注意的問題85
5.5大數據分析平台與工具87
5.5.1HPCC系統87
5.5.2Apache Drill91
5.5.3RapidMiner93
本章小結94
實驗594
第6章大數據可視化96
6.1大數據可視化概述96
6.1.1大數據可視化的概念96
6.1.2大數據可視化的基本思想和手段97
6.1.3大數據可視化的基本模型97
6.1.4可視化設計組件98
6.2科學可視化105
6.2.1科學可視化的概念105
6.2.2科學可視化方面的主題105
6.2.3科學可視化的套用106
6.3信息可視化107
6.3.1信息可視化的概念107
6.3.2信息可視化的套用108
6.3.3信息實時可視化108
6.3.4信息可視化與科學可視化的關係109
6.4數據可視化的套用109
6.4.1數據可視化的運用109
6.4.2信息可視化的挑戰114
6.5大數據可視化分析116
6.5.1數據類型116
6.5.2基本任務117
6.5.3大數據可視化分析方法118
6.5.4大數據可視化技術120
6.5.5大數據可視化分析工具127
本章小結130
實驗6130
第7章大數據安全135
7.1大數據安全的定義136
7.1.1大數據安全的定義136
7.1.2大數據安全面臨的挑戰136
7.2安全措施的實施138
7.2.1國外數據安全的法律法規138
7.2.2我國數據安全的法律法規139
7.2.3主要標準化組織的大數據安全工作情況140
7.2.4大數據安全標準化規範143
7.2.5大數據安全標準體系框架144
7.2.6大數據安全策略145
7.3大數據安全保障技術147
7.3.1數據溯源技術147
7.3.2數字水印技術149
7.3.3身份認證技術152
7.3.4數據發布匿名保護技術157
7.3.5社交網路匿名保護技術159
7.4雲安全162
7.4.1雲安全的概念162
7.4.2雲安全的應對方式163
7.4.3雲安全技術164
本章小結169
實驗7169
第8章大數據機器學習172
8.1大數據機器學習概述172
8.1.1人工智慧概述172
8.1.2機器學習概述174
8.2機器學習類型176
8.2.1基於學習策略的分類176
8.2.2基於獲取知識的表示形式分類177
8.2.3按套用領域分類178
8.2.4按學習形式分類178
8.3大數據機器學習算法179
8.3.1大數據分治策略與抽樣179
8.3.2大數據特徵選擇180
8.3.3大數據分類183
8.3.4大數據聚類189
8.3.5大數據關聯分析195
8.3.6大數據並行計算197
8.4大數據機器學習的套用199
8.4.1機器學習在金融領域的套用200
8.4.2機器學習在生物信息學中的套用202
8.4.3機器學習在電商文本大數據挖掘中的套用203
本章小結204
實驗8 205

相關詞條

熱門詞條

聯絡我們