大數據技術入門(第2版)

大數據技術入門(第2版)

《大數據技術入門(第2版)》是2020年清華大學出版社出版的圖書,作者是楊正洪。

基本介紹

  • 中文名:大數據技術入門(第2版)
  • 作者:楊正洪
  • 譯者:清華大學出版社 
  • 出版時間:2020年2月1日
  • 出版社:清華大學出版社 
  • ISBN:9787302547969 
  • 定價:79 元
  • 印次:2-1
內容簡介,圖書目錄,

內容簡介

目前國內大數據市場繼續保持高速的發展態勢,作者在與地方政府、證券金融公司的項目合作中發現,他們對大數據技術很感興趣,並希望從大數據技術、採集、存儲、訪問、安全、分析與開發等方面得到指導和幫助。因此編寫了這本大數據技術的入門書。 本書共12章,以Hadoop和Spark框架為線索,比較全面地介紹了Hadoop技術、Spark技術、大數據存儲、大數據訪問、大數據採集、大數據管理、大數據分析、大數據開發、大數據環境自動化部署(Docker和K8s)等內容。 本書適合大數據技術初學者,政府、金融機構的大數據套用決策和技術人員、IT經理、CTO、CIO等快速學習大數據技術。

圖書目錄

第1章 大數據時代 1
1.1 什麼是大數據 1
1.1.1 四大特徵 2
1.1.2 數據監管(Data Governance) 3
1.1.3 數據質量 4
1.1.4 大數據分析 4
1.1.5 大數據平台架構 5
1.2 大數據與雲計算的關係 6
1.2.1 雲計算產品概述 6
1.2.2 虛擬伺服器 7
1.2.3 雲存儲 11
1.3 Hadoop和雲平台的套用實例 12
1.3.1 雲平台層面配置 12
1.3.2 大數據平台層面配置 14
1.4 數據湖(Data Lake) 16
1.5 企業如何走向大數據 17
1.5.1 業務價值維度 18
1.5.2 數據維度 18
1.5.3 現有IT環境和成本維度 19
1.5.4 數據治理維度 20
第2章 大數據軟體框架 21
2.1 Hadoop框架 21
2.1.1 HDFS(分散式檔案系統) 22
2.1.2 MapReduce(分散式計算框架) 23
2.1.3 YARN(集群資源管理器) 28
2.2 Spark(記憶體計算框架) 30
2.2.1 Spark SQL 31
2.2.2 Spark Streaming 32
2.3 實時流處理框架 34
2.4 雲端訊息佇列 34
2.5 框架的選擇 35
2.6 Hadoop發行版 36
2.7 Mac上安裝Hadoop 37
2.7.1 在Mac上安裝Hadoop 37
2.7.2 安裝MySQL和Hive 41
2.8 Linux上安裝Hadoop 44
2.8.1 配置Java環境 45
2.8.2 安裝ntp和Python 47
2.8.3 安裝和配置openssl 47
2.8.4 配置SSH無密碼訪問 47
2.8.5 安裝Ambari和HDP 48
2.8.6 啟動和停止服務 52
2.9 AWS雲平台上安裝Hadoop 54
第3章 大數據集群 57
3.1 集群實例分析 57
3.2 YARN 67
3.2.1 架構組成 68
3.2.2 YARN執行流程 71
3.3 資源的調度器 75
3.3.1 Capacity Scheduler 76
3.3.2 Fair Scheduler 78
3.3.3 資源調度實例分析 81
3.3.4 記憶體和CPU資源調度 84
3.4 深入研究Resource Manager 88
3.5 集群配置檔案總覽 91
3.5.1 yarn-site.xml 91
3.5.2 mapred-site.xml 94
3.6 自動伸縮(Auto Scaling)集群 97
3.7 遷移Hadoop集群 97
3.8 增加Instance 99
第4章 大數據存儲:檔案系統和雲存儲 100
4.1 HDFS shell命令 100
4.2 配置HDFS 102
4.2.1 配置檔案 102
4.2.2 多節點配置 103
4.3 HDFS API編程 104
4.3.1 讀取HDFS檔案內容 105
4.3.2 寫HDFS檔案內容 108
4.3.3 WebHDFS 108
4.4 HDFS API總結 110
4.4.1 Configuration類 110
4.4.2 FileSystem抽象類 111
4.4.3 Path類 111
4.4.4 FSDataInputStream類 111
4.4.5 FSDataOutputStream類 112
4.4.6 IOUtils類 112
4.4.7 FileStatus類 112
4.4.8 FsShell類 112
4.4.9 ChecksumFileSystem抽象類 112
4.4.10 其他的HDFS API實例 113
4.4.11 綜合實例 115
4.5 HDFS檔案格式 118
4.5.1 SequenceFile 118
4.5.2 TextFile(文本格式) 118
4.5.3 RCFile 118
4.5.4 Avro 120
4.6 雲存儲S3 120
4.6.1 S3基本概念 121
4.6.2 S3管理控制台 122
4.6.3 S3 CLI 126
4.6.4 S3 SDK 127
4.6.5 分區 129
4.6.6 與EBS的比較 129
4.6.7 與Glacier的比較 129
第5章 大數據存儲:資料庫 130
5.1 NoSQL 130
5.2 HBase概述 131
5.2.1 HBase表結構 132
5.2.2 HBase系統架構 135
5.2.3 啟動並操作HBase資料庫 136
5.2.4 HBase Shell工具 139
5.3 HBase編程 142
5.3.1 增刪改查API 142
5.3.2 過濾器 146
5.3.3 計數器 149
5.3.4 原子操作 149
5.3.5 管理API 149
5.4 其他NoSQL資料庫 151
5.4.1 Cassandra 151
5.4.2 Impala 151
5.4.3 DynamoDB 151
5.4.4 Redshift 151
5.5 雲資料庫 152
5.5.1 什麼是RDS 152
5.5.2 創建雲資料庫 152
5.5.3 查看雲資料庫信息 156
5.5.4 何時使用雲端資料庫 159
第6章 大數據訪問:SQL引擎層 160
6.1 Phoenix 161
6.1.1 安裝和配置Phoenix 161
6.1.2 在Eclipse上開發Phoenix程式 165
6.1.3 Phoenix SQL工具 169
6.1.4 Phoenix SQL語法 170
6.2 Hive 171
6.2.1 Hive架構 172
6.2.2 安裝Hive 173
6.2.3 Hive CLI 175
6.2.4 Hive數據類型 175
6.2.5 Hive檔案格式 177
6.2.6 Hive表定義 179
6.2.7 Hive載入數據 183
6.2.8 Hive查詢數據 184
6.2.9 Hive UDF 186
6.2.10 Hive視圖 188
6.2.11 HiveServer2 189
6.2.12 hive-site.xml需要的配置 195
6.2.13 HBase集成 200
6.2.14 XML和JSON數據 200
6.2.15 使用TEZ 201
6.2.16 Hive MetaStore 203
6.2.17 綜合示例 204
6.3 Pig 206
6.3.1 Pig語法 207
6.3.2 Pig和Hive的使用場景之比較 210
6.4 ElasticSearch(全文搜尋引擎) 211
6.4.1 全文索引的基礎知識 211
6.4.2 安裝和配置ElasticSearch 213
6.4.3 ElasticSearch API 215
6.5 Presto 217
第7章 大數據採集和導入 218
7.1 Flume 220
7.1.1 Flume架構 220
7.1.2 Flume事件 221
7.1.3 Flume源 221
7.1.4 Flume攔截器(Interceptor) 222
7.1.5 Flume通道選擇器(Channel Selector) 223
7.1.6 Flume通道 224
7.1.7 Flume接收器 225
7.1.8 負載均衡和單點失敗 226
7.1.9 Flume監控管理 227
7.1.10 Flume實例 227
7.2 Kafka 229
7.2.1 Kafka架構 229
7.2.2 Kafka與JMS的異同 230
7.2.3 Kafka性能考慮 231
7.2.4 訊息傳送機制 231
7.2.5 Kafka和Flume的比較 232
7.3 Sqoop 232
7.3.1 從資料庫導入HDFS 233
7.3.2 增量導入 235
7.3.3 將數據從Oracle導入Hive 235
7.3.4 將數據從Oracle導入HBase 235
7.3.5 導入所有表 236
7.3.6 從HDFS導出數據 236
7.3.7 數據驗證 237
7.3.8 其他Sqoop功能 237
7.4 Storm 238
7.4.1 Storm基本概念 238
7.4.2 Spout 240
7.4.3 Bolt 241
7.4.4 拓撲結構 243
7.4.5 Storm總結 244
7.5 Amazon Kinesis 245
7.6 其他工具 246
7.6.1 Embulk 246
7.6.2 Fluentd 247
第8章 大數據安全管控 250
8.1 數據主權和合規性 250
8.2 雲端安全 251
8.2.1 身份驗證和訪問許可權 251
8.2.2 角色 253
8.2.3 虛擬網路 254
8.2.4 安全組 255
8.3 雲端監控 256
8.3.1 跟蹤和審計 256
8.3.2 監控 257
8.3.3 基於Datadog的監控 259
8.4 雲端備份和恢復 262
8.5.1 Kerberos 263
8.5.2 Apache Ranger 263
8.5.3 套用端安全 267

相關詞條

熱門詞條

聯絡我們