Hadoop虛擬化

內容簡介

本書旨在幫助讀者了解和掌握不同虛擬化Hadoop選擇的優缺點、虛擬化Hadoop的配置及其注意事項。本書共分15章，主要內容包括Hadoop平台在企業轉型中扮演的重要角色、Hadoop基礎概念、YARN與HDFS、現代數據平台、數據採集、Hadoop SQL引擎、Hadoop中的多租戶、虛擬化基礎、虛擬化Hadoop實踐、虛擬化Hadoop、虛擬化Hadoop主伺服器、虛擬化Hadoop工作節點、私有雲中的Hadoop即服務、Hadoop安裝以及Hadoop Linux配置。

圖書目錄

第　1章了解大數據的世界　1

1.1　數據革命　1

1.2　傳統數據系統　3

1.2.1　半結構化和非結構化數據　4

1.2.2　因果關係　6

1.2.3　數據挑戰　6

1.3　現代數據架構　14

1.4　組織轉型　15

1.5　行業轉型　17

1.6　小結　17

第　2章 Hadoop基礎概念　18

2.1　Hadoop中的數據類型　18

2.2　使用案例　19

2.3　什麼是Hadoop　20

2.4　Hadoop發行版本　25

2.5　Hadoop框架　25

2.6　NoSQL資料庫　29

2.7　Hadoop集群　33

2.8　Hadoop軟體進程　36

2.9　Hadoop生態中的角色　45

2.10　小結　48

第3章　YARN和HDFS　49

3.1　Hadoop分散式集群　49

3.2　Hadoop結構　53

3.3　Hadoop分散式檔案系統　54

3.3.1　YARN日誌　56

3.3.2　NameNode　57

3.3.3　DataNode　58

3.3.4　塊分布　60

3.3.5　NameNode配置和元數據管理　62

3.4　機架嘗堡感知　67

3.4.1　塊管嘗訂項達理　67

3.4.2　均衡器　68

3.4.3　群集中的數據完整性維護　68

3.4.4　配額和垃圾桶　76

3.5　YARN和YARN處理模型　76

3.5.1　在YARN上運行套用　83

3.5.2　資源調度器　88

3.5.3　基準測試　92

3.5.4　TeraSort基準測堡榜榜辨試組件　94

3.6　小結　96

第4章　現代數據平台　98

4.1　設計一個Hadoop集群　98

4.2　小結　115

第5章　數據提取　117

5.1　提取、載入和轉化　117

5.1.1　Sqoop：數據移動和櫃應達SQL源　118

5.1.2　Flume：流數據　123

5.1.3　Oozie：計畫和工作流　140

5.1.4　Falcon：數據生命周期管理　145

5.1.5　Kafka：實時數據流　148

5.2　小結　156

第6章　Hadoop SQL引擎　157

6.1　SQL的起源　157

6.2　Hadoop中的SQL　158

6.3　Hadoop SQL引擎　159

6.4　感受Hive和Pig的樂趣　蒸蜜項166

6.4.1　Hive　166

6.4.2　HCatalog　180

6.5　小結　187

第7章　Hadoop多租戶　188

7.1　保障訪問　189

7.1.1　認證　189

7.1.2　審計　194

7.1.3　授權　194

7.1.4　數據保護　196

7.1.5　數據隔離　203

7.1.6　進程隔離　211

7.2　小結　214

第8章　虛擬化基礎　215

8.1　Hadoop虛擬化的原因　216

8.2　小結　231

參考文獻　231

第9章　Hadoop虛擬化最佳實踐　232

9.1　有目的、有調理地進行Hadoop虛擬化　232

9.1.1　目的始於明確的目標　234

9.1.2　Hadoop不同層次虛擬化　234

9.1.3　行業最佳實踐　236

9.2　小結　249

第　10章 Hadoop虛擬化　250

10.1　如何管理Hadoop生態　251

10.1.1　構建敏捷和彈性的企業Hadoop平台　252

10.1.2　澄清條款　戰肯旋252

10.1.3　從裸機到虛擬化海罪凝的歷程　253

10.2　為何考慮Hadoop虛擬化　254

10.2.1　Hadoop虛擬化的好處　255

10.2.2　虛擬化可以跟本地運行一樣快甚至更快　256

10.2.3　協調和交叉目的專業化是未來　258

10.2.4　障礙可以是在企業之前　259

10.2.5　虛擬化不是全部或不是一個選項　259

10.2.6　快速配置並提高開發和測試環境質量　259

10.2.7　使用虛擬化提升高可用性　261

10.2.8　使用虛擬化處理Hadoop工作負載　261

10.2.9　基於雲的Hadoop　262

10.2.10　大數據擴展　262

10.2.11　虛擬化的途徑　263

10.2.12　軟體定義數據中心　264

10.2.13　虛擬化網路　265

10.2.14　vRealize Suite　266

10.3　小結　267

參考文獻　268

第　11章 Hadoop虛擬化主伺服器　269

11.1　Hadoop虛擬化集群伺服器　269

11.1.1　Hadoop周邊環境虛擬化　270

11.1.2　Hadoop主伺服器虛擬化　271

11.1.3　無SAN虛擬化　274

11.2　小結　275

第　12章虛擬化工作節點　276

12.1　Hadoop中的工作節點　276

12.2　Hadoop集群的部署模式　277

12.2.1　組合模式　278

12.2.2　分離模式　281

12.2.3　數據-計算分離的網路影響　283

12.2.4　數據-計算分離模式下的共享存儲方式　284

12.2.5　用於套用臨時數據的本地磁碟　286

12.2.6　使用網路附加存儲（NAS）的共享存儲架構模型　286

12.2.7　部署模式總結　288

12.3　Hadoop虛擬化工作節點的最佳實踐　289

12.4　Hadoop虛擬化擴展　293

12.5　小結　296

參考文獻　296

資源　297

第　13章私有雲中部署Hadoop即服務　298

13.1　雲概念　298

13.1.1　Hadoop的受益者　299

13.1.2　解決方案架構概述　303

13.2　小結　305

參考文獻　305

第　14章掌握Hadoop的安裝　306

14.1　為正確的場景使用正確的解決方案　306

14.2　配置倉庫　308

14.2.1　安裝HDP2.2　310

14.2.2　環境準備　310

14.3　設定Hadoop配置　320

14.4　啟動HDFS和YARN　325

14.4.1　啟動YARN　327

14.4.2　驗證MapReduce功能　329

14.5　安裝和配置Hive　331

14.6　安裝和配置MySQL資料庫　331

14.7　安裝和配置Hive和HCatalog　331

14.8　小結　334

第　15章為Hadoop配置Linux　336

15.1　支持的Linux平台　337

15.2　不同部署模式　337

15.3　Linux黃金模板　337

15.3.1　構建企業級Linux Hadoop平台　338

15.3.2　Linux版本選擇　341

15.4　最優Linux核心參數和系統設定　341

15.4.1　epoll　341

15.4.2　禁用交換空間　342

15.4.3　安裝過程中的安全性禁用　342

15.4.4　IO調度器調優　344

15.4.5　檢查透明大記憶體頁面配置　344

15.4.6　Limits.conf　344

15.4.7　RDM分區對齊　345

15.4.8　檔案系統注意事項　345

15.4.9　XFS惰性計算參數　347

15.4.10　Mount選項　347

15.4.11　I/O調度器　348

15.4.12　磁碟讀寫選項　350

15.4.13　存儲基準測試　350

15.4.14　Java版本　351

15.4.15　設定NTP　351

15.4.16　啟用巨型幀　352

15.4.17　其他網路方面的考慮　353

15.5　小結　355

附錄　Hadoop集群創建：先決條件檢查表　356

Hadoop虛擬化

基本介紹

內容簡介

圖書目錄

相關詞條

熱門詞條