大數據原理與技術(2022年人民郵電出版社出版的圖書)

大數據原理與技術(2022年人民郵電出版社出版的圖書)

本詞條是多義詞,共2個義項
更多義項 ▼ 收起列表 ▲

《大數據原理與技術》是2022年人民郵電出版社出版的圖書,作者是黃史浩。

基本介紹

  • 中文名:大數據原理與技術
  • 作者:黃史浩
  • 出版時間:2022年12月
  • 出版社:人民郵電出版社
  • ISBN:9787115597366
  • 類別:圖書>計算機/網路>資料庫>資料庫理論
  • 開本:128 開
  • 裝幀:平裝-膠訂
  • 叢書名:ICT認證系列叢書
內容簡介,圖書目錄,作者簡介,

內容簡介

本書從大數據的概念和特徵開始講起,首先讓讀者對大數據有一個感性的認識;然後結合大數據平台的各個模組,詳細介紹了大數據的存儲、處理、分析、可視化等方面的原理和操作;後介紹了大數據在各行業中的套用,讓讀者更加充分地感受到大數據技術的優勢,以及大數據套用的價值。 本書適合高等院校相關專業的學生使用,也適合參加大數據技術培訓課程的人員使用,還可以作為從事ICT行業相關工作的人員和大數據技術愛好者的參考書。

圖書目錄

第 1 章 大數據概述 0
11 大數據的概念與價值 2
111 大數據的基本概念 2
112 大數據的來源 4
113 大數據的價值 5
114 挖掘企業大數據價值的方式 7
12 大數據的關鍵技術 7
121 大數據採集、預處理、存儲與管理 8
122 大數據分析與挖掘 8
123 大數據可視化 9
13 大數據產業 9
131 數據提供 9
132 技術提供 10
133 服務提供 10
14 大數據套用場景 11
15 本章總結 11
練習題 12
第 2 章 Hadoop 大數據處理平台 14
21 Hadoop 平台概述 16
211 Hadoop 起源及發展 16
212 Hadoop 特性 17
213 Hadoop 套用現狀 17
214 Hadoop 版本及相關平台 18
22 Hadoop 生態系統 18
221 HDFS 和 HBase 18
222 MapReduce 和 YARN 19
223 Hive 20
224 Sqoop 和 Flume 20
225 ZooKeeper 和 Oozie 20
226 Kerberos 和 LDAP 21
227 Impala 和 Solr 21
228 Kafka 21
23 Hadoop 安裝部署 22
231 Hadoop 規劃部署 22
232 Hadoop 的安裝方式 23
24 華為 FusionInsight HD 安裝部署 27
241 FusionInsight HD 簡介 27
242 FusionInsight HD 集成設計 29
243 FusionInsight HD 安裝部署 35
244 FusionInsight HD 重要參數配置 44
25 本章總結 45
練習題 45
第 3 章 HDFS 48
31 概述 50
311 DFS 的概念與作用 51
312 HDFS 概述 51
32 HDFS 的相關概念 52
321 HDFS 塊 52
322 NameNode 53
323 Secondary NameNode 54
324 DataNode 55
33 HDFS 體系架構與原理 56
331 HDFS 體系架構 56
332 HDFS 的高可用機制 56
333 HDFS 的目錄結構 58
334 HDFS 的數據讀寫過程 61
34 HDFS 接口及其在 FusionInsight HD 編程中的實踐 63
341 HDFS 常用的 Shell 命令 63
342 HDFS 的 Web 界面 65
343 HDFS 的 Java API 及套用實例 66
35 本章總結 72
練習題 73
第 4 章 MapReduce 和 YARN 76
41 MapReduce 技術原理 78
411 MapReduce 概述 79
412 Map 函式與 Reduce 函式 79
42 YARN 技術原理 80
421 YARN 的概述與套用 80
422 YARN 的架構 81
423 MapReduce 的計算過程 82
424 YARN 的資源調度 84
43 FusionInsight HD 中 MapReduce 的套用 85
431 WordCount 實例分析 85
432 MapReduce 編程實踐 86
44 本章總結 93
練習題 93
第 5 章 HBase 96
51 HBase 概述與套用 98
511 HBase 簡介 98
512 HBase 的特性 99
513 HBase 與關係資料庫的區別 100
514 HBase 的套用場景 100
52 HBase 的架構原理 101
521 HBase 的數據模型 101
522 表和 Region 102
523 HBase 的系統架構與功能組件 103
524 HBase 的讀寫流程 104
525 HBase 的 Compaction 過程 106
53 FusionInsight HD 中 HBase 的編程實踐 107
531 FusionInsight HD 中 HBase 的常用參數配置 107
532 HBase 常用的 Shell 命令 109
533 HBase 常用的 Java API 及套用實例 112
54 本章總結 131
練習題 131
第 6 章 Hive 134
61 Hive 概述 136
611 Hive 的基本概念及套用 136
612 Hive 的特性 137
613 Hive 與傳統數據倉庫的區別 138
62 Hive 的架構和數據存儲 138
621 Hive 的架構原理 139
622 Hive 的數據存儲模型 141
623 HiveQL 編程 142
63 FusionInsight HD 中 Hive 的套用實踐 148
631 FusionInsight HD 中 Hive 的常用參數配置 148
632 載入數據到 Hive 149
633 使用 HiveQL 進行數據分析 151
64 本章總結 156
練習題 156
第 7 章 Sqoop 和 Loader 158
71 Sqoop 概述 160
711 Sqoop 簡介與套用 161
712 Sqoop 的功能與特性 161
713 Sqoop 與傳統 ETL 的區別 162
72 FusionInsight HD 中 Loader 的套用實踐 162
721 FusionInsight HD 中 Loader 與 Sqoop 的對比 163
722 FusionInsight HD 中 Loader 的參數配置 164
723 使用 Loader 進行數據轉換 165
724 Loader 常用的 Shell 命令 166
725 Loader 套用實踐 168
73 本章總結 170
練習題 170
第 8 章 Flume 172
81 Flume 概述 174
811 Flume 簡介 174
812 Flume 的功能與特性 177
813 Flume 與其他主流開源日誌收集系統的區別 178
82 FusionInsight HD 中 Flume 的套用實踐 178
821 FusionInsight HD 中 Flume 的常用參數配置 179
822 Flume 常用的 Shell 命令 180
823 Flume 與 Kafka 結合進行日誌處理 181
83 本章總結 184
練習題 185
第 9 章 Spark 186
91 Spark 概述 188
911 Spark 的概述與套用 189
912 Scala 語言介紹 190
913 Spark 生態系統組件 190
914 Spark 與 Hadoop 的對比 191
92 Spark 技術架構 192
921 Spark 的運行原理 192
922 RDD 概念與原理 194
923 Spark 的 3 種部署方式 196
924 使用開發工具測試 Spark 198
93 FusionInsight HD 中 Spark 的套用實踐 199
931 運行 Spark Shell 199
932 進行 Spark RDD 操作 200
933 使用 Spark 客戶端工具運行 Spark 程式 202
94 Spark Streaming 206
941 Spark Streaming 的設計思想 206
942 Spark Streaming 的套用實例 206
95 Spark SQL 210
951 Spark SQL 的功能 210
952 FusionInsight HD 中 Spark SQL 的套用實例 210
96 Spark MLlib 212
961 機器學習簡介 212
962 Spark MLlib 的功能 213
97 Spark GraphX 213
971 圖計算簡介 213
972 Spark GraphX 功能簡介 214
98 本章總結 214
練習題 215
第 10 章 大數據流計算 216
101 流計算概述 218
1011 靜態數據和流數據的概念 219
1012 流計算的概念 219
1013 MapReduce 和流計算 220
1014 流計算框架 220
102 流計算的處理流程 221
1021 數據實時採集 221
1022 數據實時計算 221
1023 數據實時查詢 222
103 Streaming 流計算 222
1031 Streaming 簡介 222
1032 Streaming 的特點 225
1033 Streaming 中 FusionInsight HD 的套用實踐 226
1034 Spark Streaming 與 Streaming 的差異 231
104 本章總結 232
練習題 233
第 11 章 數據可視化 234
111 可視化概述 236
1111 數據可視化簡介 237
1112 數據可視化的重要性 237
1113 可視化的發展歷程 238
1114 數據可視化的實現過程 239
112 可視化工具 240
1121 入門級工具(Excel) 240
1122 普通工具(R 語言) 240
1123 高級工具(Tableau 和 QlikView) 241
113 可視化的典型套用 241
1131 可視化在醫學上的套用 241
1132 可視化在工程中的套用 242
1133 可視化在網際網路中的套用 243
114 本章總結 243
練習題 244
第 12 章 大數據行業套用 246
121 大數據在金融行業中的套用 248
122 大數據在電信行業中的套用 250
123 大數據在網際網路行業中的套用 253
124 本章總結 254
練習題 255
術語表 256
參考文獻 268

作者簡介

黃史浩 多年的Hadoop大數據平台企業業務套用實踐,具有豐富的Hadoop平台運維,開發與分析實戰經驗 2. 主導過多個大型大數據項目的開發,如維達國際大數據平台、中國商品進出口交易中心ETL日誌分析大數據平台 3、多年大數據與數據挖掘等IT領域技術培訓經驗,豐富的課程設計和授課經驗。

相關詞條

熱門詞條

聯絡我們