Hadoop大數據平台構建與套用

Hadoop大數據平台構建與套用

《Hadoop大數據平台構建與套用》是2020年3月電子工業出版社出版的圖書,作者是王傳東、盧澔、馬榮飛。

基本介紹

  • 書名:Hadoop大數據平台構建與套用
  • 作者:王傳東、盧澔、馬榮飛
  • ISBN:9787121380822
  • 頁數:248頁
  • 定價:46元
  • 出版社:電子工業出版社
  • 出版時間:2020年3月
  • 開本:16開
內容簡介,圖書目錄,

內容簡介

本書基於Hadoop大數據平台,講解大數據平台的搭建與運維、大數據的採集與存儲、大數據的處理、數據的分析、數據的可視化等完整的大數據套用案例,全面詳細地講述Hadoop、MapReduee、HDFS、Hive、Spark和Zookeeper等技術的相關知識;還詳細介紹了Hadoop大數據集群環境配置與搭建、部署配置Hadoop HA模式等內容。本書具有較強的實用性和可操作性,語言精練,通俗易懂,操作步驟描述詳盡,並配有大量操作圖例。

圖書目錄

第1章 大數據與Hadoop平台技術 1
1.1 大數據時代 1
1.2 大數據關鍵技術 2
1.3 大數據涉及的主要軟體 3
1.4 Hadoop平台技術的生態 4
第2章 Ubuntu系統的安裝與使用 7
2.1 Linux系統簡介 7
2.2 Ubuntu系統安裝 8
2.2.1 下載虛擬機軟體VMware並安裝 8
2.2.2 在虛擬機中安裝Ubuntu系統 14
2.2.3 切換中英文輸入法 27
2.2.4 安裝VMware Tools 28
2.2.5 apt更新與更新源更換 30
2.2.6 安裝vim編輯器並使用 32
2.3 虛擬機聯網問題及其他 34
第3章 Linux基礎知識及相關軟體的基本使用 39
3.1 Linux基礎知識 39
3.1.1 Linux目錄結構 39
3.1.2 Shell介紹 40
3.1.3 超級用戶——root用戶 41
3.1.4 sudo命令和su命令 41
3.1.5 創建與刪除普通用戶 42
3.1.6 目錄標記規則 43
3.1.7 目錄許可權 43
3.1.8 安裝SSH 44
3.2 Linux常用軟體與命令 45
3.2.1 修改主機名 45
3.2.2 目錄操作 45
3.2.3 查看檔案內容和清屏 46
3.2.4 檔案操作 46
3.2.5 檔案解壓 47
3.2.6 進程與連線埠查看命令 48
3.2.7 系統管理命令 49
3.2.8 數據流重定向和管道的使用 50
3.2.9 其他使用技巧介紹 51
3.3 在Ubuntu中安裝Eclipse 51
3.3.1 通過軟體中心下載安裝Eclipse 51
3.3.2 在桌面創建Eclipse捷徑 52
第4章 Hadoop的偽分散式安裝與使用 54
4.1 深入了解Hadoop 54
4.1.1 Hadoop發行版本介紹 54
4.1.2 Hadoop核心架構 55
4.1.3 Hadoop的主要套用場景 56
4.2 安裝Java環境 57
4.2.1 離線安裝 57
4.2.2 線上安裝 58
4.3 安裝Hadoop 59
4.3.1 下載Hadoop安裝檔案並解壓 59
4.3.2 配置Hadoop環境變數 60
4.3.3 偽分散式模式配置 61
4.3.4 Hadoop無法正常啟動和使用的解決方法 63
第5章 HDFS 65
5.1 HDFS基本知識 65
5.1.1 DFS簡介 65
5.1.2 HDFS 65
5.1.3 HDFS存儲數據 66
5.2 Shell命令與HDFS互動操作 67
5.2.1 Hadoop Shell命令方式 67
5.2.2 目錄操作 68
5.2.3 檔案操作 69
5.2.4 利用Web界面管理HDFS 70
5.3 Java編程與HDFS實現互動 71
5.3.1 在Eclipse中創建HDFS互動Java項目 71
5.3.2 在Java項目中編寫Java應用程式代碼 75
5.3.3 編譯運行程式與打包 77
5.3.4 練習中使用的代碼檔案 81
第6章 HBase偽分布部署與使用 85
6.1 HBase介紹 85
6.2 安裝HBase 86
6.3 偽分布HBase環境搭建 87
6.4 HBase Shell常用操作命令實踐 90
6.4.1 HBase表結構舉例說明和常用的表操作命令 90
6.4.2 在HBase中創建表和刪除表 91
6.4.3 HBase資料庫基本操作 92
第7章 MapReduce原理與基礎編程 94
7.1 MapReduce介紹與基本原理 94
7.1.1 MapReduce在現實生活中的運用 94
7.1.2 通過案例拆解MapReduce的工作過程 95
7.1.3 MapReduce工作流程概括 98
7.2 MapReduce編程思路 98
7.3 MapReduce編程實例1:WordCount 99
7.4 MapReduce編程實例2:計算學生的平均成績 109
第8章 數據倉庫Hive偽分散式部署與使用 113
8.1 Hive的特點 113
8.2 Hive偽分散式部署 114
8.2.1 安裝配置Hive 114
8.2.2 安裝配置MySQL,連線Hive元資料庫 115
8.3 MySQL資料庫操作 118
8.3.1 常用命令介紹 118
8.3.2 無法登錄MySQL Shell的解決方法 120
第9章 數據分析與Hive資料庫操作 121
9.1 Hive操作命令介紹 121
9.2 HQL中的Case命令用法介紹 122
9.3 電商網站日誌數據分析與達成目標 124
9.4 數據分析實現126
9.4.1 將網站日誌檔案集載入到Hive中 126
9.4.2 統計分析網站日誌數據 127
9.4.3 統計詞頻 131
第10章 Spark的安裝與基礎編程 133
10.1 Spark的安裝(Python版) 133
10.1.1 下載Spark安裝軟體 134
10.1.2 安裝與配置Spark 134
10.1.3 在PySpark中運行代碼 135
10.1.4 Spark獨立應用程式編程示例 136
10.2 Spark的一些基本概念 137
10.3 RDD編程操作 137
10.3.1 RDD操作的兩種類型 137
10.3.2 創建RDD 139
10.3.3 創建鍵值對RDD 142
10.4 從RDD到DataFrame 145
10.4.1 Spark SQL和DataFrame 145
10.4.2 創建樣例數據檔案 146
10.4.3 讀取json和csv檔案生成DataFrame 147
10.4.4 普通文本檔案生成DataFrame 148
10.5 Spark綜合編程與Python可視化 151
10.5.1 Spark綜合編程 151
10.5.2 Python可視化呈現 154
第11章 Hadoop集群環境搭建 160
11.1 克隆Linux虛擬機 160
11.2 橋接模式與NAT模式 163
11.2.1 橋接模式 163
11.2.2 NAT模式 164
11.3 VMware Workstation橋接網路配置 164
11.3.1 集群網路配置實現的目標 164
11.3.2 設定網路橋接模式 165
11.3.3 驗證 169
11.4 大數據集群環境配置與搭建 170
11.4.1 修改主機名,並將主機名與IP位址建立映射 170
11.4.2 集群SSH免密登錄 171
11.4.3 時間同步 173
第12章 Zookeeper與集群Hadoop安裝套用 174
12.1 Zookeeper介紹 174
12.1.1 Zookeeper的作用 174
12.1.2 Zookeeper選舉機制 175
12.2 安裝Zookeeper 175
12.2.1 為安裝Zookeeper的目錄賦權 175
12.2.2 下載、解壓Zookeeper安裝包 175
12.2.3 修改Zookeeper配置檔案zoo.cfg 176
12.2.4 創建zkdata和zkdatalog資料夾 177
12.2.5 創建檔案myid 177
12.2.6 配置環境變數 177
12.2.7 遠程複製分發 178
12.2.8 啟動Zookeeper集群 179
12.2.9 Zookeeper啟動錯誤及解決方法 179
12.3 在集群上安裝Hadoop 180
12.4 在集群上安裝HBase 185
第13章 構建集群數據倉庫 189
13.1 在slave2節點上安裝MySQL Server 189
13.2 在slave1節點上安裝Hive伺服器 191
13.3 將master節點作為Hive客戶端 194
13.4 啟動Hive 195
第14章 Hadoop從完全分散式到HA的安裝與使用 197
14.1 Hadoop HA 197
14.1.1 HDFS HA背景 197
14.1.2 HDFS HA架構 197
14.2 安裝虛擬機系統 199
14.2.1 在VMware中創建虛擬機 199
14.2.2 安裝CentOS 7 206
14.2.3 設定網路靜態IP位址 208
14.2.4 克隆3台虛擬機 211
14.3 使用XShell 6登錄CentOS虛擬機 212
14.4 修改各節點主機名稱並配置SSH免密 215
14.4.1 修改各節點的虛擬機主機名 215
14.4.2 主機名與IP位址映射 215
14.4.3 SSH免密設定 216
14.5 安裝JDK 218
14.6 安裝並配置Zookeeper 219
14.6.1 安裝Zookeeper 220
14.6.2 啟動和停止Zookeeper 222
14.7 安裝並配置為完全分散式Hadoop集群 223
14.7.1 上傳、解壓檔案並配置環境變數 223
14.7.2 將Hadoop配置為完全分散式集群 224
14.8 部署配置Hadoop HA模式 227
14.8.1 編輯Hadoop HA配置檔案 227
14.8.2 分發檔案 230
14.8.3 第一次啟動HA 231
14.8.4 常規啟動HA 234
14.8.5 Hadoop HA部署完成之後的常規啟停順序 236
14.8.6 在HA集群上測試WordCount程式 236

相關詞條

熱門詞條

聯絡我們