大數據平台運維中級

大數據平台運維中級

《大數據平台運維中級》是2021年電子工業出版社出版的圖書。

基本介紹

  • 中文名:大數據平台運維中級
  • 作者:新華三技術有限公司
  • 出版社:電子工業出版社
  • 出版時間:2021年
  • 開本:128 開
  • ISBN:9787121410307
內容簡介,作者簡介,目 錄,

內容簡介

本書為“1 X”職業技能等級證書配套教材,按國家1 X 證書制度試點大數據平台運維職業技能等級標準編寫。本書從大數據平台運維工程師的角度,由淺入深、全方位地介紹了大數據平台運維的相關實踐知識和核心實操。本書共六部分,包括21章:*部分,大數據平台架構,涉及大數據的特點及發展趨勢、大數據的實施和運維流程、大數據的套用場景與案例;第二部分,大數據平台高可用(HA)集群部署,涉及Hadoop集群基礎環境的配置、Hadoop HA集群的配置、Hadoop HA集群的啟動;第三部分,大數據組件的維護,涉及HBase組件的維護、Hive組件的維護、ZooKeeper組件的維護、ETL組件的維護、Spark組件的維護;第四部分,大數據平台最佳化,涉及Linux系統最佳化、HDFS配置最佳化、MapReduce配置最佳化、Spark配置最佳化;第五部分,大數據平台的診斷與處理,涉及Hadoop及生態圈組件負載均衡的診斷與處理、集群節點故障的診斷與處理、集群組件服務故障的診斷與處理;第六部分,大數據平台項目綜合案例,涉及數據倉庫運維項目實戰、金融行業運維項目實戰、典型大數據平台監控運維項目實戰。本書可作為中職院校和高職院校大數據及計算機類相關專業的教材,也可作為大數據平台運維人員的參考用書。

作者簡介

紫光股份旗下新華三集團作為數位化解決方案領導者,致力於成為客戶業務創新、數位化轉型可信賴的合作夥伴。新華三擁有計算、存儲、網路、5G、安全等全方位的數位化基礎設施整體能力,提供雲計算、大數據、人工智慧、工業網際網路、信息安全、智慧型聯接、新安防、邊緣計算等在內的一站式數位化解決方案,以及端到端的技術服務。同時,新華三也是HPE?伺服器、存儲和技術服務的中國獨家提供商。

目 錄

部分 大數據平台架構
第1章 大數據的特點及發展趨勢 2
1.1 大數據平台架構概述 2
1.1.1 大數據的概念 2
1.1.2 大數據的特徵 3
1.1.3 大數據的處理流程及相關
技術 4
1.1.4 大數據平台架構的特點 5
1.2 大數據平台架構的原理 5
1.3 大數據的發展歷程 6
1.3.1 大數據的具體發展過程 6
1.3.2 大數據技術的具體發展歷程 7
1.4 大數據的發展趨勢 8
1.4.1 大數據技術面臨的挑戰 8
1.4.2 大數據套用的發展趨勢 10
1.5 本章小結 11
第2章 大數據的實施和運維流程 12
2.1 大數據實施和運維工程師的
工作職責 12
2.1.1 大數據職位體系 12
2.1.2 大數據實施工程師的
工作職責 14
2.1.3 大數據運維工程師的
工作職責 15
2.2 大數據實施和運維工程師的
工作能力素養要求 15
2.2.1 大數據實施工程師的
工作能力素養要求 15
2.2.2 大數據運維工程師的
工作能力素養要求 16
2.3 大數據項目實施的工作流程 18
2.3.1 大數據項目規劃階段 18
2.3.2 大數據項目數據治理階段 19
2.3.3 大數據項目設計階段 20
2.3.4 大數據項目數據套用階段 21
2.3.5 大數據項目疊代實施與
套用推廣階段 22
2.4 大數據運維的日常工作 23
2.4.1 應急處置 23
2.4.2 故障報告 24
2.4.3 故障檢查 24
2.4.4 故障診斷 25
2.4.5 故障測試與修復 25
2.5 本章小結 26
第3章 大數據的套用場景與案例 27
3.1 大數據平台架構的典型
行業套用場景 27
3.1.1 醫療行業的套用 27
3.1.2 金融行業的套用 28
3.1.3 零售行業的套用 29
3.1.4 地產行業的套用 29
3.1.5 農業的套用 30
3.1.6 政務和智慧城市的套用 30
3.1.7 教育行業的套用 30
3.1.8 環境行業的套用 30
3.2 大數據平台架構的典型
企業套用場景 30
3.2.1 輿情分析 31
3.2.2 商業智慧型 31
3.3 Hadoop生態圈中行業套用的
典型實戰案例 32
3.3.1 電信行業——中國移動
基於Hadoop的大數據套用 32
3.3.2 金融行業——VISA公司
的Hadoop套用案例 33
3.3.3 電商行業——eBay網站
的Hadoop套用案例 33
3.4 Hadoop生態圈中企業套用的
典型實戰案例 33
3.4.1 新華三大數據集成平台
在大地影院的套用案例背景 33
3.4.2 大地的套用案例的用戶
痛點分析 34
3.4.3 大地的套用案例的項目需求 34
3.4.4 大地的套用案例的數據構成 34
3.4.5 大地的套用案例的技術
方案設計與實現 34
3.4.6 大地的套用案例系統核心組件
(H3C數據集成組件)簡介 36
3.4.7 大地的套用案例的系統
優勢及成效 36
3.5 本章小結 36
第二部分 大數據平台高可用(HA)集群部署
第4章 Hadoop集群基礎環境的配置 38
4.1 Hadoop集群概述 38
4.1.1 Hadoop集群的核心組件 38
4.1.2 Hadoop集群的網路拓撲
結構 40
4.2 平台系統的環境設定 41
4.2.1 Linux系統環境配置 41
4.2.2 創建hadoop用戶 43
4.3 Linux防火牆 43
4.3.1 Linux防火牆的種類與特點 44
4.3.2 Linux防火牆管理 45
4.4 SELinux 47
4.4.1 SELinux簡介 47
4.4.2 SELinux的功能 47
4.4.3 SELinux的配置 47
4.4.4 關閉集群中的SELinux 47
4.5 配置集群主機之間時鐘同步 48
4.5.1 直接同步 48
4.5.2 平滑同步 49
4.6 SSH無密碼登錄 50
4.6.1 生成SSH密鑰 50
4.6.2 交換SSH密鑰 51
4.6.3 驗證SSH無密碼登錄 52
4.7 Java環境變數配置 52
4.7.1 JDK功能簡介 52
4.7.2 下載JDK安裝包 53
4.7.3 JDK的安裝與環境變數配置 53
4.8 Hadoop的安裝與配置 54
4.8.1 獲取Hadoop安裝包 54
4.8.2 安裝Hadoop軟體 54
4.9 本章小結 55
第5章 Hadoop HA集群的配置 56
5.1 Hadoop HA集群的特點 56
5.2 Hadoop HA集群的實現原理 57
5.2.1 HDFS HA的實現原理 57
5.2.2 YARN HA的實現原理 58
5.3 ZooKeeper的特點 58
5.3.1 ZooKeeper的功能原理 58
5.3.2 ZooKeeper集群節點組成 59
5.3.3 ZooKeeper的同步機制 60
5.3.4 ZooKeeper的選舉機制 60
5.4 ZooKeeper HA集群 61
5.4.1 在master節點上安裝
部署ZooKeeper 61
5.4.2 在master節點上配置
ZooKeeper檔案參數 61
5.4.3 分發ZooKeeper給slave1節點
和slave2節點 62
5.5 Hadoop HA集群的檔案參數 64
5.5.1 在master節點上配置
Hadoop HA集群的檔案參數 64
5.5.2 分發hadoop相關檔案給
slave1節點和slave2節點 68
5.6 JournalNode服務 69
5.6.1 JournalNode服務的原理 69
5.6.2 啟動JournalNode服務 70
5.7 本章小結 70
第6章 Hadoop HA集群的啟動 71
6.1 HDFS的格式化 71
6.1.1 active NameNode的格式化
和啟動 71
6.1.2 standby NameNode的格式化
和啟動 72
6.1.3 格式化ZKFC 73
6.2 Hadoop HA集群的啟動流程 73
6.2.1 啟動HDFS 73
6.2.2 啟動YARN 74
6.2.3 啟動MapReduce的
歷史伺服器 75
6.3 啟動後驗證 75
6.3.1 查看進程 75
6.3.2 查看連線埠 76
6.3.3 運行測試 77
6.4 Hadoop HA集群的主備切換 78
6.4.1 Hadoop HA集群的切換
機制 78
6.4.2 手動切換測試 79
6.4.3 自動切換測試 79
6.5 本章小結 81
第三部分 大數據組件的維護
第7章 HBase組件的維護 84
7.1 NoSQL與傳統RDBMS的
差異 84
7.1.1 傳統RDBMS及其
套用場景 84
7.1.2 NoSQL簡介 85
7.2 HBase組件的原理 86
7.2.1 HBase簡介 86
7.2.2 HBase的體系結構 86
7.3 HBase的分散式部署 87
7.3.1 HBase集群環境準備 87
7.3.2 HBase的分散式安裝 88
7.4 HBase庫/表管理 90
7.4.1 HBase庫管理 90
7.4.2 HBase表管理 91
7.5 HBase數據操作 93
7.5.1 基礎操作 93
7.5.2 模糊查詢 94
7.5.3 批量導入/導出 95
7.6 HBase錯誤恢復 97
7.7 退出HBase庫 98
7.8 卸載HBase庫 98
7.9 本章小結 98
第8章 Hive組件的維護 99
8.1 Hive的架構 99
8.1.1 Hive簡介 99
8.1.2 Hive的數據類型 100
8.2 分散式部署Hive 101
8.2.1 環境需求 101
8.2.2 MySQL的安裝與啟動 102
8.2.3 配置Hive參數 103
8.2.4 Beeline CLI遠程訪問Hive 105
8.3 Hive庫操作 106
8.4 Hive表操作 107
8.4.1 創建表 107
8.4.2 查看與修改表 108
8.4.3 刪除表和退出Hive 108
8.5 Hive數據操作 109
8.5.1 數據導入 109
8.5.2 查詢 110
8.6 Hive宕機恢復 111
8.6.1 數據備份 111
8.6.2 基於HDFS的數據恢復 112
8.6.3 基於MySQL元數據
生成表結構 112
8.7 退出和卸載Hive組件 115
8.7.1 退出Hive 115
8.7.2 卸載Hive 115
8.8 本章小結 115
第9章 ZooKeeper組件的維護 116
9.1 ZooKeeper基礎 116
9.1.1 ZooKeeper簡介 116
9.1.2 ZooKeeper中的重要概念 117
9.2 ZooKeeper的功能及其優點
和局限性 117
9.2.1 ZooKeeper的功能 117
9.2.2 ZooKeeper的優點 118
9.2.3 ZooKeeper的局限性 118
9.3 ZooKeeper的架構 118
9.4 ZooKeeper仲裁模式 119
9.5 配置ZooKeeper 120
9.6 配置ZooKeeper集群 120
9.6.1 集群環境準備 120
9.6.2 ZooKeeper集群的安裝 121
9.7 Zookeeper集群的決策選舉 122
9.8 ZooKeeper組件管理 123
9.8.1 JMX管理框架 123
9.8.2 ZooKeeper Shell操作 125
9.9 本章小結 127
第10章 ETL組件的維護 128
10.1 Sqoop概述與架構 128
10.1.1 Sqoop概述 128
10.1.2 Sqoop的架構 129
10.2 Flume概述與架構 130
10.2.1 Flume概述 130
10.2.2 Flume的架構 130
10.3 Kafka概述與架構 131
10.3.1 Kafka概述 131
10.3.2 Kafka的架構 132
10.4 Sqoop導入數據 133
10.5 Sqoop導出數據 134
10.6 修改控制Sqoop組件的
參數 134
10.7 Flume組件代理配置 136
10.8 Flume組件的數據獲取 137
10.9 Flume組件管理 137
10.10 Kafka組件的部署 138
10.11 Kafka組件的驗證部署 139
10.12 Kafka組件的數據處理 140
10.13 本章小結 141
第11章 Spark組件的維護 142
11.1 Spark概述與架構 142
11.1.1 Spark概述 142
11.1.2 Spark的架構 144
11.2 Spark的工作原理 146
11.3 Scala的安裝部署 148
11.3.1 Scala簡介 148
11.3.2 Scala的安裝 148
11.4 安裝Spark 149
11.4.1 Spark模式介紹 149
11.4.2 Spark的安裝部署 151
11.5 修改Spark參數 154
11.5.1 Spark屬性 154
11.5.2 環境變數 155
11.5.3 Spark日誌 156
11.5.4 覆蓋配置目錄 156
11.6 Spark Shell編程 156
11.6.1 Spark Shell概述 156
11.6.2 Spark Shell操作 156
11.7 Spark的基本管理 158
11.8 本章小結 160
第四部分 大數據平台最佳化
第12章 Linux系統最佳化 162
12.1 Linux系統最佳化工具 162
12.1.1 free命令 162
12.1.2 top命令 163
12.2 最佳化Linux系統的記憶體 164
12.2.1 將hadoop用戶添加到
sudo組中 164

相關詞條

熱門詞條

聯絡我們