Hadoop大數據實戰權威指南(第2版)

Hadoop大數據實戰權威指南(第2版)

《Hadoop大數據實戰權威指南(第2版)》是2019年9月電子工業出版社出版的圖書,作者是黃東軍。

基本介紹

  • 書名:Hadoop大數據實戰權威指南(第2版)
  • 作者:黃東軍
  • ISBN:9787121370335  
  • 頁數:320頁  
  • 定價:79元 
  • 出版社:電子工業出版社
  • 出版時間:2019年9月   
  • 開本:16開
內容簡介,目錄,

內容簡介

基於深入分析組件原理、充分展示搭建過程、詳細指導套用開發”的理念,以最新版Hadoop及其生態組件為對象,採用理論與套用高度融合的方法,介紹大數據的概念、技術、方法、套用、以及項目開發。全書分為三篇,第一篇為大數據的基本概念和技術綜述,第二篇為平台搭建與基本套用,內容設計Linux、HDFS、MapReduce、Yarn、Hive、HBase、Sqoop、Kafka、Spark、Phoenix等;第三篇為數據處理與項目開發,綜合運用各類組件進行實際數據處理,包括互動式套用、決策、推薦算法、銷售數據分析系統等。

目錄

第一篇 大數據的基本概念和技術 1
第1章 緒論 3
1.1 大數據的時代背景 3
1.1.1 全球大數據浪潮 3
1.1.2 我國的大數據戰略 5
1.2 大數據的基本概念和特徵 6
1.2.1 基本概念 6
1.2.2 基本特徵 7
1.3 大數據系統的技術支撐體系 7
1.3.1 技術支撐體系概覽 7
1.3.2 大數據系統的採集層 8
1.3.3 大數據系統的存儲層 9
1.3.4 大數據系統的分析層 9
1.3.5 大數據系統的套用層 9
1.3.6 大數據系統的垂直層 10
1.4 大數據領域的主要職位及其能力要求 11
1.4.1 首席數據官 11
1.4.2 數據科學家 11
1.4.3 大數據開發工程師 12
1.4.4 大數據運維工程師 13
1.5 本章小結 13
第2章 Hadoop大數據關鍵技術 15
2.1 Hadoop大數據套用生態系統 15
2.1.1 架構的基本理論 15
2.1.2 Hadoop大數據套用生態系統的主要組件及其關係 16
2.2 大數據採集技術 19
2.2.1 結構化數據採集工具 19
2.2.2 日誌收集工具與技術 20
2.3 大數據存儲技術 23
2.3.1 相關概念 23
2.3.2 分散式存儲系統 27
2.3.3 資料庫(HBase)與數據倉庫(Hive) 30
2.4 分散式計算框架 35
2.4.1 離線計算框架 35
2.4.2 實時流計算平台 40
2.5 數據分析平台與工具 45
2.5.1 面向大數據的數據挖掘與分析工具 45
2.5.2 機器學習 49
2.6 本章小結 52
第二篇 Hadoop大數據平台搭建與基本套用 55
第3章 Linux作業系統與集群搭建 57
3.1 Linux作業系統 57
3.1.1 概述 57
3.1.2 特點 58
3.1.3 Linux作業系統的組成 59
3.2 Linux集群的搭建 62
3.2.1 安裝VMware Workstation 62
3.2.2 在VMware Workstation Pro 12上安裝Linux(CentOS 7) 65
3.3 集群的配置 77
3.3.1 設定主機名 77
3.3.2 網路設定 79
3.3.3 關閉防火牆 83
3.3.4 安裝JDK 84
3.3.5 免密鑰登錄配置 87
3.4 Linux基本命令 89
3.5 本章小結 96
第4章 HDFS安裝與基本套用 97
4.1 HDFS概述 97
4.1.1 特點 97
4.1.2 主要組件與架構 97
4.2 HDFS架構分析 98
4.2.1 數據塊 98
4.2.2 NameNode 98
4.2.3 DataNode 99
4.2.4 SecondaryNameNode 100
4.2.5 數據備份 100
4.2.6 通信協定 101
4.2.7 可靠性保證 101
4.3 檔案操作過程分析 101
4.3.1 讀檔案 101
4.3.2 寫檔案 102
4.3.3 刪除檔案 103
4.4 Hadoop的安裝與配置 104
4.4.1 解壓Hadoop安裝包 104
4.4.2 配置Hadoop環境變數 105
4.4.3 配置Yarn環境變數 106
4.4.4 配置核心組件 106
4.4.5 配置檔案系統 107
4.4.6 配置yarn site.xml檔案 108
4.4.7 配置MapReduce計算框架檔案 109
4.4.8 配置Master中的workers檔案 111
4.4.9 將Master上的Hadoop複製到Slave 111
4.5 Hadoop集群的啟動 112
4.5.1 配置作業系統的環境變數 112
4.5.2 創建Hadoop數據 113
4.5.3 格式化檔案系統 113
4.5.4 啟動和關閉Hadoop 114
4.5.5 驗證Hadoop是否成功啟動 115
4.6 Hadoop集群的基本套用 117
4.6.1 HDFS基本命令 117
4.6.2 在Hadoop集群中運行程式 120
4.7 本章小結 122
第5章 MapReduce與Yarn 123
5.1 MapReduce程式的概念 123
5.1.1 基本編程模型 123
5.1.2 計算過程分析 124
5.2 深入理解Yarn 126
5.2.1 Yarn的基本架構 126
5.2.2 Yarn的工作流程 130
5.3 在Linux平台安裝Eclipse 130
5.3.1 Eclipse簡介 130
5.3.2 安裝並啟動Eclipse 131
5.4 開發MapReduce程式的基本方法 133
5.4.1 為Eclipse安裝Hadoop外掛程式 133
5.4.2 WordCount:第一個MapReduce程式 137
5.5 本章小結 150
第6章 Hive和HBase的安裝與套用 151
6.1 在CentOS 7下安裝MySQL 151
6.1.1 下載或複製MySQL安裝包 151
6.1.2 執行安裝命令 152
6.1.3 啟動MySQL 153
6.1.4 登錄MySQL 153
6.1.5 使用MySQL 154
6.1.6 問題與解決辦法 156
6.2 Hive安裝與套用 157
6.2.1 下載並解壓Hive安裝包 158
6.2.2 配置Hive 158
6.2.3 啟動並驗證Hive 161
6.2.4 Hive的基本套用 162
6.3 ZooKeeper集群安裝 163
6.3.1 ZooKeeper簡介 163
6.3.2 安裝ZooKeeper 164
6.3.3 配置ZooKeeper 165
6.3.4 啟動和測試 166
6.4 HBase的安裝與套用 168
6.4.1 解壓並安裝HBase 168
6.4.2 配置HBase 169
6.4.3 啟動並驗證HBase 171
6.4.4 HBase的基本套用 173
6.4.5 HBase套用中常見問題及其解決辦法 175
6.5 本章小結 176
第7章 Sqoop和Kafka的安裝與套用 177
7.1 安裝部署Sqoop 177
7.1.1 下載或複製Sqoop安裝包 177
7.1.2 解壓並安裝Sqoop 177
7.1.3 配置Sqoop 178
7.1.4 啟動並驗證Sqoop 180
7.1.5 測試Sqoop與MySQL的連線 180
7.2 安裝部署Kafka集群 182
7.2.1 下載或複製Kafka安裝包 182
7.2.2 解壓縮Kafka安裝包 182
7.2.3 配置Kafka集群 183
7.2.4 Kafka的初步套用 184
7.3 本章小結 188
第8章 Spark集群的安裝與開發環境的配置 189
8.1 深入理解Spark 189
8.1.1 Spark的系統架構 189
8.1.2 Spark的關鍵概念 191
8.2 Scala的安裝與配置 193
8.2.1 下載Scala安裝包 194
8.2.2 安裝Scala 194
8.2.3 啟動並套用Scala 195
8.3 Spark集群的安裝與配置 195
8.3.1 安裝模式 195
8.3.2 Spark的安裝 196
8.3.3 啟動並驗證Spark 198
8.3.4 幾點說明 202
8.4 IDEA開發環境的安裝與配置 203
8.4.1 IDEA簡介 203
8.4.2 IDEA的安裝 204
8.4.3 IDEA的配置 205
8.5 本章小結 208
第9章 Spark套用基礎 209
9.1 Spark應用程式的運行模式 209
9.1.1 Spark on Yarn-cluster- 209
9.1.2 Spark on Yarn-client 210
9.2 Spark的套用設計 211
9.2.1 分散式估算圓周率 211
9.2.2 基於Spark MLlib的貸款風險預測 226
9.3 本章小結 242
第三篇 大數據處理與項目開發 243
第10章 互動式數據處理 245
10.1 數據預處理 245
10.1.1 查看數據 245
10.1.2 數據擴展 247
10.1.3 數據過濾 247
10.1.4 數據上傳 248
10.2 創建數據倉庫 249
10.2.1 創建Hive數據倉庫的基本命令 249
10.2.2 創建Hive分區表 251
10.3 數據分析 253
10.3.1 基本統計 253
10.3.2 用戶行為分析 254
10.3.3 實時數據 256
10.4 本章小結 256
第11章 協同過濾推薦系統 257
11.1 推薦算法概述 257
11.1.1 基於人口統計學的推薦 257
11.1.2 基於內容的推薦 258
11.1.3 協同過濾推薦 258
11.2 協同過濾推薦算法分析 259
11.2.1 基於用戶的協同過濾推薦 259
11.2.2 基於物品的協同過濾推薦 261
11.3 Spark MLlib推薦算法套用 262
11.3.1 ALS算法原理 262
11.3.2 ALS的套用設計 264
11.4 本章小結 277
第12章 銷售數據分析系統 279
12.1 數據採集 279
12.1.1 在Windows平台安裝JDK 279
12.1.2 在Windows平台安裝Eclipse 281
12.1.3 將WebCollector項目導入Eclipse 282
12.1.4 在Windows平台安裝MySQL 283
12.1.5 連線JDBC 286
12.1.6 運行爬蟲程式 286
12.2 在HBase集群上準備數據 287
12.2.1 將數據導入MySQL 287
12.2.2 將MySQL表中的數據導入HBase集群 289
12.3 安裝Phoenix中間件 291
12.3.1 Phoenix架構 291
12.3.2 解壓安裝Phoenix 293
12.3.3 Phoenix環境配置 293
12.3.4 使用Phoenix 294
12.4 基於Web的前端開發 298
12.4.1 將Web前端項目導入Eclipse 298
12.4.2 安裝Tomcat 300
12.4.3 在Eclipse中配置Tomcat 300
12.4.4 在Web瀏覽器中查看執行結果 303
12.5 本章小結 305
參考文獻307,
第一篇 大數據的基本概念和技術 1
第1章 緒論 3
1.1 大數據的時代背景 3
1.1.1 全球大數據浪潮 3
1.1.2 我國的大數據戰略 5
1.2 大數據的基本概念和特徵 6
1.2.1 基本概念 6
1.2.2 基本特徵 7
1.3 大數據系統的技術支撐體系 7
1.3.1 技術支撐體系概覽 7
1.3.2 大數據系統的採集層 8
1.3.3 大數據系統的存儲層 9
1.3.4 大數據系統的分析層 9
1.3.5 大數據系統的套用層 9
1.3.6 大數據系統的垂直層 10
1.4 大數據領域的主要職位及其能力要求 11
1.4.1 首席數據官 11
1.4.2 數據科學家 11
1.4.3 大數據開發工程師 12
1.4.4 大數據運維工程師 13
1.5 本章小結 13
第2章 Hadoop大數據關鍵技術 15
2.1 Hadoop大數據套用生態系統 15
2.1.1 架構的基本理論 15
2.1.2 Hadoop大數據套用生態系統的主要組件及其關係 16
2.2 大數據採集技術 19
2.2.1 結構化數據採集工具 19
2.2.2 日誌收集工具與技術 20
2.3 大數據存儲技術 23
2.3.1 相關概念 23
2.3.2 分散式存儲系統 27
2.3.3 資料庫(HBase)與數據倉庫(Hive) 30
2.4 分散式計算框架 35
2.4.1 離線計算框架 35
2.4.2 實時流計算平台 40
2.5 數據分析平台與工具 45
2.5.1 面向大數據的數據挖掘與分析工具 45
2.5.2 機器學習 49
2.6 本章小結 52
第二篇 Hadoop大數據平台搭建與基本套用 55
第3章 Linux作業系統與集群搭建 57
3.1 Linux作業系統 57
3.1.1 概述 57
3.1.2 特點 58
3.1.3 Linux作業系統的組成 59
3.2 Linux集群的搭建 62
3.2.1 安裝VMware Workstation 62
3.2.2 在VMware Workstation Pro 12上安裝Linux(CentOS 7) 65
3.3 集群的配置 77
3.3.1 設定主機名 77
3.3.2 網路設定 79
3.3.3 關閉防火牆 83
3.3.4 安裝JDK 84
3.3.5 免密鑰登錄配置 87
3.4 Linux基本命令 89
3.5 本章小結 96
第4章 HDFS安裝與基本套用 97
4.1 HDFS概述 97
4.1.1 特點 97
4.1.2 主要組件與架構 97
4.2 HDFS架構分析 98
4.2.1 數據塊 98
4.2.2 NameNode 98
4.2.3 DataNode 99
4.2.4 SecondaryNameNode 100
4.2.5 數據備份 100
4.2.6 通信協定 101
4.2.7 可靠性保證 101
4.3 檔案操作過程分析 101
4.3.1 讀檔案 101
4.3.2 寫檔案 102
4.3.3 刪除檔案 103
4.4 Hadoop的安裝與配置 104
4.4.1 解壓Hadoop安裝包 104
4.4.2 配置Hadoop環境變數 105
4.4.3 配置Yarn環境變數 106
4.4.4 配置核心組件 106
4.4.5 配置檔案系統 107
4.4.6 配置yarn site.xml檔案 108
4.4.7 配置MapReduce計算框架檔案 109
4.4.8 配置Master中的workers檔案 111
4.4.9 將Master上的Hadoop複製到Slave 111
4.5 Hadoop集群的啟動 112
4.5.1 配置作業系統的環境變數 112
4.5.2 創建Hadoop數據 113
4.5.3 格式化檔案系統 113
4.5.4 啟動和關閉Hadoop 114
4.5.5 驗證Hadoop是否成功啟動 115
4.6 Hadoop集群的基本套用 117
4.6.1 HDFS基本命令 117
4.6.2 在Hadoop集群中運行程式 120
4.7 本章小結 122
第5章 MapReduce與Yarn 123
5.1 MapReduce程式的概念 123
5.1.1 基本編程模型 123
5.1.2 計算過程分析 124
5.2 深入理解Yarn 126
5.2.1 Yarn的基本架構 126
5.2.2 Yarn的工作流程 130
5.3 在Linux平台安裝Eclipse 130
5.3.1 Eclipse簡介 130
5.3.2 安裝並啟動Eclipse 131
5.4 開發MapReduce程式的基本方法 133
5.4.1 為Eclipse安裝Hadoop外掛程式 133
5.4.2 WordCount:第一個MapReduce程式 137
5.5 本章小結 150
第6章 Hive和HBase的安裝與套用 151
6.1 在CentOS 7下安裝MySQL 151
6.1.1 下載或複製MySQL安裝包 151
6.1.2 執行安裝命令 152
6.1.3 啟動MySQL 153
6.1.4 登錄MySQL 153
6.1.5 使用MySQL 154
6.1.6 問題與解決辦法 156
6.2 Hive安裝與套用 157
6.2.1 下載並解壓Hive安裝包 158
6.2.2 配置Hive 158
6.2.3 啟動並驗證Hive 161
6.2.4 Hive的基本套用 162
6.3 ZooKeeper集群安裝 163
6.3.1 ZooKeeper簡介 163
6.3.2 安裝ZooKeeper 164
6.3.3 配置ZooKeeper 165
6.3.4 啟動和測試 166
6.4 HBase的安裝與套用 168
6.4.1 解壓並安裝HBase 168
6.4.2 配置HBase 169
6.4.3 啟動並驗證HBase 171
6.4.4 HBase的基本套用 173
6.4.5 HBase套用中常見問題及其解決辦法 175
6.5 本章小結 176
第7章 Sqoop和Kafka的安裝與套用 177
7.1 安裝部署Sqoop 177
7.1.1 下載或複製Sqoop安裝包 177
7.1.2 解壓並安裝Sqoop 177
7.1.3 配置Sqoop 178
7.1.4 啟動並驗證Sqoop 180
7.1.5 測試Sqoop與MySQL的連線 180
7.2 安裝部署Kafka集群 182
7.2.1 下載或複製Kafka安裝包 182
7.2.2 解壓縮Kafka安裝包 182
7.2.3 配置Kafka集群 183
7.2.4 Kafka的初步套用 184
7.3 本章小結 188
第8章 Spark集群的安裝與開發環境的配置 189
8.1 深入理解Spark 189
8.1.1 Spark的系統架構 189
8.1.2 Spark的關鍵概念 191
8.2 Scala的安裝與配置 193
8.2.1 下載Scala安裝包 194
8.2.2 安裝Scala 194
8.2.3 啟動並套用Scala 195
8.3 Spark集群的安裝與配置 195
8.3.1 安裝模式 195
8.3.2 Spark的安裝 196
8.3.3 啟動並驗證Spark 198
8.3.4 幾點說明 202
8.4 IDEA開發環境的安裝與配置 203
8.4.1 IDEA簡介 203
8.4.2 IDEA的安裝 204
8.4.3 IDEA的配置 205
8.5 本章小結 208
第9章 Spark套用基礎 209
9.1 Spark應用程式的運行模式 209
9.1.1 Spark on Yarn-cluster- 209
9.1.2 Spark on Yarn-client 210
9.2 Spark的套用設計 211
9.2.1 分散式估算圓周率 211
9.2.2 基於Spark MLlib的貸款風險預測 226
9.3 本章小結 242
第三篇 大數據處理與項目開發 243
第10章 互動式數據處理 245
10.1 數據預處理 245
10.1.1 查看數據 245
10.1.2 數據擴展 247
10.1.3 數據過濾 247
10.1.4 數據上傳 248
10.2 創建數據倉庫 249
10.2.1 創建Hive數據倉庫的基本命令 249
10.2.2 創建Hive分區表 251
10.3 數據分析 253
10.3.1 基本統計 253
10.3.2 用戶行為分析 254
10.3.3 實時數據 256
10.4 本章小結 256
第11章 協同過濾推薦系統 257
11.1 推薦算法概述 257
11.1.1 基於人口統計學的推薦 257
11.1.2 基於內容的推薦 258
11.1.3 協同過濾推薦 258
11.2 協同過濾推薦算法分析 259
11.2.1 基於用戶的協同過濾推薦 259
11.2.2 基於物品的協同過濾推薦 261
11.3 Spark MLlib推薦算法套用 262
11.3.1 ALS算法原理 262
11.3.2 ALS的套用設計 264
11.4 本章小結 277
第12章 銷售數據分析系統 279
12.1 數據採集 279
12.1.1 在Windows平台安裝JDK 279
12.1.2 在Windows平台安裝Eclipse 281
12.1.3 將WebCollector項目導入Eclipse 282
12.1.4 在Windows平台安裝MySQL 283
12.1.5 連線JDBC 286
12.1.6 運行爬蟲程式 286
12.2 在HBase集群上準備數據 287
12.2.1 將數據導入MySQL 287
12.2.2 將MySQL表中的數據導入HBase集群 289
12.3 安裝Phoenix中間件 291
12.3.1 Phoenix架構 291
12.3.2 解壓安裝Phoenix 293
12.3.3 Phoenix環境配置 293
12.3.4 使用Phoenix 294
12.4 基於Web的前端開發 298
12.4.1 將Web前端項目導入Eclipse 298
12.4.2 安裝Tomcat 300
12.4.3 在Eclipse中配置Tomcat 300
12.4.4 在Web瀏覽器中查看執行結果 303
12.5 本章小結 305
參考文獻307

相關詞條

熱門詞條

聯絡我們