Hadoop虛擬化

Hadoop虛擬化

《Hadoop虛擬化》是2019年2月人民郵電出版社出版的圖書,作者是[美]喬治·特魯希略、查爾斯·吉姆、史蒂夫·瓊斯、隆美爾·加西亞。

基本介紹

  • 書名:Hadoop虛擬化
  • 作者:[美]喬治·特魯希略、查爾斯·吉姆、史蒂夫·瓊斯、隆美爾·加西亞
  • ISBN:9787115497543
  • 頁數:358頁
  • 定價:89元
  • 出版社:人民郵電出版社
  • 出版時間:2019年2月
  • 裝幀:平裝
  • 開本:16開
內容簡介,圖書目錄,

內容簡介

本書旨在幫助讀者了解和掌握不同虛擬化Hadoop選擇的優缺點、虛擬化Hadoop的配置及其注意事項。本書共分15章,主要內容包括Hadoop平台在企業轉型中扮演的重要角色、Hadoop基礎概念、YARN與HDFS、現代數據平台、數據採集、Hadoop SQL引擎、Hadoop中的多租戶、虛擬化基礎、虛擬化Hadoop實踐、虛擬化Hadoop、虛擬化Hadoop主伺服器、虛擬化Hadoop工作節點、私有雲中的Hadoop即服務、Hadoop安裝以及Hadoop Linux配置。

圖書目錄

第 1章 了解大數據的世界 1
1.1 數據革命 1
1.2 傳統數據系統 3
1.2.1 半結構化和非結構化數據 4
1.2.2 因果關係 6
1.2.3 數據挑戰 6
1.3 現代數據架構 14
1.4 組織轉型 15
1.5 行業轉型 17
1.6 小結 17
第 2章 Hadoop基礎概念 18
2.1 Hadoop中的數據類型 18
2.2 使用案例 19
2.3 什麼是Hadoop 20
2.4 Hadoop發行版本 25
2.5 Hadoop框架 25
2.6 NoSQL資料庫 29
2.7 Hadoop集群 33
2.8 Hadoop軟體進程 36
2.9 Hadoop生態中的角色 45
2.10 小結 48
第3章 YARN和HDFS 49
3.1 Hadoop分散式集群 49
3.2 Hadoop結構 53
3.3 Hadoop分散式檔案系統 54
3.3.1 YARN日誌 56
3.3.2 NameNode 57
3.3.3 DataNode 58
3.3.4 塊分布 60
3.3.5 NameNode配置和元數據管理 62
3.4 機架嘗堡感知 67
3.4.1 塊管嘗訂項達理 67
3.4.2 均衡器 68
3.4.3 群集中的數據完整性維護 68
3.4.4 配額和垃圾桶 76
3.5 YARN和YARN處理模型 76
3.5.1 在YARN上運行套用 83
3.5.2 資源調度器 88
3.5.3 基準測試 92
3.5.4 TeraSort基準測堡榜榜辨試組件 94
3.6 小結 96
第4章 現代數據平台 98
4.1 設計一個Hadoop集群 98
4.2 小結 115
第5章 數據提取 117
5.1 提取、載入和轉化 117
5.1.1 Sqoop:數據移動和櫃應達SQL源 118
5.1.2 Flume:流數據 123
5.1.3 Oozie:計畫和工作流 140
5.1.4 Falcon:數據生命周期管理 145
5.1.5 Kafka:實時數據流 148
5.2 小結 156
第6章 Hadoop SQL引擎 157
6.1 SQL的起源 157
6.2 Hadoop中的SQL 158
6.3 Hadoop SQL引擎 159
6.4 感受Hive和Pig的樂趣 蒸蜜項166
6.4.1 Hive 166
6.4.2 HCatalog 180
6.5 小結 187
第7章 Hadoop多租戶 188
7.1 保障訪問 189
7.1.1 認證 189
7.1.2 審計 194
7.1.3 授權 194
7.1.4 數據保護 196
7.1.5 數據隔離 203
7.1.6 進程隔離 211
7.2 小結 214
第8章 虛擬化基礎 215
8.1 Hadoop虛擬化的原因 216
8.2 小結 231
參考文獻 231
第9章 Hadoop虛擬化最佳實踐 232
9.1 有目的、有調理地進行Hadoop虛擬化 232
9.1.1 目的始於明確的目標 234
9.1.2 Hadoop不同層次虛擬化 234
9.1.3 行業最佳實踐 236
9.2 小結 249
第 10章 Hadoop虛擬化 250
10.1 如何管理Hadoop生態 251
10.1.1 構建敏捷和彈性的企業Hadoop平台 252
10.1.2 澄清條款 戰肯旋252
10.1.3 從裸機到虛擬化海罪凝的歷程 253
10.2 為何考慮Hadoop虛擬化 254
10.2.1 Hadoop虛擬化的好處 255
10.2.2 虛擬化可以跟本地運行一樣快甚至更快 256
10.2.3 協調和交叉目的專業化是未來 258
10.2.4 障礙可以是在企業之前 259
10.2.5 虛擬化不是全部或不是一個選項 259
10.2.6 快速配置並提高開發和測試環境質量 259
10.2.7 使用虛擬化提升高可用性 261
10.2.8 使用虛擬化處理Hadoop工作負載 261
10.2.9 基於雲的Hadoop 262
10.2.10 大數據擴展 262
10.2.11 虛擬化的途徑 263
10.2.12 軟體定義數據中心 264
10.2.13 虛擬化網路 265
10.2.14 vRealize Suite 266
10.3 小結 267
參考文獻 268
第 11章 Hadoop虛擬化主伺服器 269
11.1 Hadoop虛擬化集群伺服器 269
11.1.1 Hadoop周邊環境虛擬化 270
11.1.2 Hadoop主伺服器虛擬化 271
11.1.3 無SAN虛擬化 274
11.2 小結 275
第 12章 虛擬化工作節點 276
12.1 Hadoop中的工作節點 276
12.2 Hadoop集群的部署模式 277
12.2.1 組合模式 278
12.2.2 分離模式 281
12.2.3 數據-計算分離的網路影響 283
12.2.4 數據-計算分離模式下的共享存儲方式 284
12.2.5 用於套用臨時數據的本地磁碟 286
12.2.6 使用網路附加存儲(NAS)的共享存儲架構模型 286
12.2.7 部署模式總結 288
12.3 Hadoop虛擬化工作節點的最佳實踐 289
12.4 Hadoop虛擬化擴展 293
12.5 小結 296
參考文獻 296
資源 297
第 13章 私有雲中部署Hadoop即服務 298
13.1 雲概念 298
13.1.1 Hadoop的受益者 299
13.1.2 解決方案架構概述 303
13.2 小結 305
參考文獻 305
第 14章 掌握Hadoop的安裝 306
14.1 為正確的場景使用正確的解決方案 306
14.2 配置倉庫 308
14.2.1 安裝HDP2.2 310
14.2.2 環境準備 310
14.3 設定Hadoop配置 320
14.4 啟動HDFS和YARN 325
14.4.1 啟動YARN 327
14.4.2 驗證MapReduce功能 329
14.5 安裝和配置Hive 331
14.6 安裝和配置MySQL資料庫 331
14.7 安裝和配置Hive和HCatalog 331
14.8 小結 334
第 15章 為Hadoop配置Linux 336
15.1 支持的Linux平台 337
15.2 不同部署模式 337
15.3 Linux黃金模板 337
15.3.1 構建企業級Linux Hadoop平台 338
15.3.2 Linux版本選擇 341
15.4 最優Linux核心參數和系統設定 341
15.4.1 epoll 341
15.4.2 禁用交換空間 342
15.4.3 安裝過程中的安全性禁用 342
15.4.4 IO調度器調優 344
15.4.5 檢查透明大記憶體頁面配置 344
15.4.6 Limits.conf 344
15.4.7 RDM分區對齊 345
15.4.8 檔案系統注意事項 345
15.4.9 XFS惰性計算參數 347
15.4.10 Mount選項 347
15.4.11 I/O調度器 348
15.4.12 磁碟讀寫選項 350
15.4.13 存儲基準測試 350
15.4.14 Java版本 351
15.4.15 設定NTP 351
15.4.16 啟用巨型幀 352
15.4.17 其他網路方面的考慮 353
15.5 小結 355
附錄 Hadoop集群創建:先決條件檢查表 356
5.1.3 Oozie:計畫和工作流 140
5.1.4 Falcon:數據生命周期管理 145
5.1.5 Kafka:實時數據流 148
5.2 小結 156
第6章 Hadoop SQL引擎 157
6.1 SQL的起源 157
6.2 Hadoop中的SQL 158
6.3 Hadoop SQL引擎 159
6.4 感受Hive和Pig的樂趣 166
6.4.1 Hive 166
6.4.2 HCatalog 180
6.5 小結 187
第7章 Hadoop多租戶 188
7.1 保障訪問 189
7.1.1 認證 189
7.1.2 審計 194
7.1.3 授權 194
7.1.4 數據保護 196
7.1.5 數據隔離 203
7.1.6 進程隔離 211
7.2 小結 214
第8章 虛擬化基礎 215
8.1 Hadoop虛擬化的原因 216
8.2 小結 231
參考文獻 231
第9章 Hadoop虛擬化最佳實踐 232
9.1 有目的、有調理地進行Hadoop虛擬化 232
9.1.1 目的始於明確的目標 234
9.1.2 Hadoop不同層次虛擬化 234
9.1.3 行業最佳實踐 236
9.2 小結 249
第 10章 Hadoop虛擬化 250
10.1 如何管理Hadoop生態 251
10.1.1 構建敏捷和彈性的企業Hadoop平台 252
10.1.2 澄清條款 252
10.1.3 從裸機到虛擬化的歷程 253
10.2 為何考慮Hadoop虛擬化 254
10.2.1 Hadoop虛擬化的好處 255
10.2.2 虛擬化可以跟本地運行一樣快甚至更快 256
10.2.3 協調和交叉目的專業化是未來 258
10.2.4 障礙可以是在企業之前 259
10.2.5 虛擬化不是全部或不是一個選項 259
10.2.6 快速配置並提高開發和測試環境質量 259
10.2.7 使用虛擬化提升高可用性 261
10.2.8 使用虛擬化處理Hadoop工作負載 261
10.2.9 基於雲的Hadoop 262
10.2.10 大數據擴展 262
10.2.11 虛擬化的途徑 263
10.2.12 軟體定義數據中心 264
10.2.13 虛擬化網路 265
10.2.14 vRealize Suite 266
10.3 小結 267
參考文獻 268
第 11章 Hadoop虛擬化主伺服器 269
11.1 Hadoop虛擬化集群伺服器 269
11.1.1 Hadoop周邊環境虛擬化 270
11.1.2 Hadoop主伺服器虛擬化 271
11.1.3 無SAN虛擬化 274
11.2 小結 275
第 12章 虛擬化工作節點 276
12.1 Hadoop中的工作節點 276
12.2 Hadoop集群的部署模式 277
12.2.1 組合模式 278
12.2.2 分離模式 281
12.2.3 數據-計算分離的網路影響 283
12.2.4 數據-計算分離模式下的共享存儲方式 284
12.2.5 用於套用臨時數據的本地磁碟 286
12.2.6 使用網路附加存儲(NAS)的共享存儲架構模型 286
12.2.7 部署模式總結 288
12.3 Hadoop虛擬化工作節點的最佳實踐 289
12.4 Hadoop虛擬化擴展 293
12.5 小結 296
參考文獻 296
資源 297
第 13章 私有雲中部署Hadoop即服務 298
13.1 雲概念 298
13.1.1 Hadoop的受益者 299
13.1.2 解決方案架構概述 303
13.2 小結 305
參考文獻 305
第 14章 掌握Hadoop的安裝 306
14.1 為正確的場景使用正確的解決方案 306
14.2 配置倉庫 308
14.2.1 安裝HDP2.2 310
14.2.2 環境準備 310
14.3 設定Hadoop配置 320
14.4 啟動HDFS和YARN 325
14.4.1 啟動YARN 327
14.4.2 驗證MapReduce功能 329
14.5 安裝和配置Hive 331
14.6 安裝和配置MySQL資料庫 331
14.7 安裝和配置Hive和HCatalog 331
14.8 小結 334
第 15章 為Hadoop配置Linux 336
15.1 支持的Linux平台 337
15.2 不同部署模式 337
15.3 Linux黃金模板 337
15.3.1 構建企業級Linux Hadoop平台 338
15.3.2 Linux版本選擇 341
15.4 最優Linux核心參數和系統設定 341
15.4.1 epoll 341
15.4.2 禁用交換空間 342
15.4.3 安裝過程中的安全性禁用 342
15.4.4 IO調度器調優 344
15.4.5 檢查透明大記憶體頁面配置 344
15.4.6 Limits.conf 344
15.4.7 RDM分區對齊 345
15.4.8 檔案系統注意事項 345
15.4.9 XFS惰性計算參數 347
15.4.10 Mount選項 347
15.4.11 I/O調度器 348
15.4.12 磁碟讀寫選項 350
15.4.13 存儲基準測試 350
15.4.14 Java版本 351
15.4.15 設定NTP 351
15.4.16 啟用巨型幀 352
15.4.17 其他網路方面的考慮 353
15.5 小結 355
附錄 Hadoop集群創建:先決條件檢查表 356

相關詞條

熱門詞條

聯絡我們