Hadoop大數據解決方案

Hadoop大數據解決方案

《Hadoop大數據解決方案》是2017年2月清華大學出版社出版的圖書,作者是[美] Benoy Antony、Konstantin Boudnik、Cheryl Adams、Branky Shao、Cazen Lee、Kai Sasaki。

基本介紹

  • 中文名:Hadoop大數據解決方案
  • 作者:[美] Benoy Antony、Konstantin Boudnik、Cheryl Adams、Branky Shao、Cazen Lee、Kai Sasaki
  • 出版時間:2017年2月
  • 出版社:清華大學出版社
  • ISBN:9787302466451
  • 定價:49.8 元
內容簡介,圖書目錄,

內容簡介

使用Hadoop構建更優秀的大數據解決方案
Hadoop開源且基於Java、幾乎沒有入門障礙,它提供了迅速占據市場的實用大數據解決方案。
《Hadoop大數據解決方案》由包括已認證Hadoop開發者、Committers和峰會演講者在內的專家團隊編寫,可以作為有關該框架流程和功能的自學教程。書中單獨介紹了各個組件,最後用實際項目將它們聯繫起來並構建示例套用。本書跳過資料庫開發基礎知識,直奔主題,幫助有經驗的開發者快速上手,並開始在真實場景中使用Hadoop。
主要內容
◆ 向你展示使用Hadoop Stack配置存儲、用戶體驗和記憶體計算的方法
◆ 解釋使用Kafka實時訊息和Storm數據流將Hadoop與其他系統集成的方法
◆ 演示關鍵安全特性與技術,同時給出保證數據安全的專家建議
◆ 講授使用Apache BigTop打包、測試和配置的基礎知識,以及使用Ignite更快速執行MapReduce的方法
◆ 帶你領略示例套用構建過程,展示核心組件如何協同工作,同時提供了所有示例代碼

圖書目錄

第1章 Hadoop概述 1
1.1 商業分析與大數據 2
1.1.1 Hadoop的組件 3
1.1.2 Hadoop分散式檔案系統(HDFS) 3
1.1.3 MapReduce是什麼 4
1.1.4 YARN是什麼 5
1.2 ZooKeeper是什麼 6
1.3 Hive是什麼 7
1.4 與其他系統集成 8
1.4.1 Hadoop生態系統 9
1.4.2 數據集成與Hadoop 11
1.5 小結 16
第2章 存儲 19
2.1 Hadoop HDFS的基礎知識 20
2.1.1 概念 21
2.1.2 架構 25
2.1.3 接口 29
2.2 在分散式模式下設定HDFS群集 35
2.3 HDFS的高級特性 40
2.3.1 快照 41
2.3.2 離線查看器 44
2.3.3 分層存儲 52
2.3.4 糾刪碼 55
2.4 檔案格式 59
2.5 雲存儲 63
2.6 小結 64
第3章 計算 65
3.1 Hadoop MapReduce的基礎 66
3.1.1 概念 66
3.1.2 架構 69
3.2 如何啟動MapReduce作業 76
3.2.1 編寫Map任務 77
3.2.2 編寫reduce任務 79
3.2.3 編寫MapReduce作業 80
3.2.4 配置 83
3.3 MapReduce的高級特性 85
3.3.2 計數器 87
3.3.3 作業歷史伺服器 89
3.4 與Spark作業的區別 91
3.5 小結 92
第4章 用戶體驗 93
4.1 Apache Hive 94
4.1.1 安裝Hive 96
4.1.2 HiveQL 97
4.1.3 UDF/SerDe 103
4.1.4 Hive調優 105
4.2 Apache Pig 106
4.2.1 安裝Pig 107
4.2.2 Pig Latin 108
4.3 UDF 110
4.4 Hue 111
4.5 Apache Oozie 114
4.5.1 安裝Oozie 115
4.5.2 Oozie的工作原理 118
4.5.3 工作流/協調器 119
4.5.4 Oozie CLI 124
4.6 小結 124
第5章 與其他系統集成 125
5.1 Apache Sqoop 126
5.2 Apache Flume 130
5.3 Apache Kafka 136
5.3.1 工作原理 138
5.3.2 Kafka Connect 141
5.3.3 流處理 143
5.4 Apache Storm 144
5.4.1 工作原理 145
5.4.2 Trident 148
5.4.3 Kafka集成 149
5.5 小結 152
第6章 Hadoop安全 153
6.1 提升Hadoop群集安全性 154
6.1.1 邊界安全 154
6.1.2 Kerberos認證 156
6.1.3 Hadoop中的服務級授權 162
6.1.4 用戶模擬 167
6.1.5 提升HTTP信道的安全性 170
6.2 提升數據安全性 174
6.2.1 數據分類 175
6.2.2 將數據傳到群集 176
6.2.3 保護群集中的數據 182
6.3 增強應用程式安全性 189
6.3.1 YARN架構 189
6.3.2 YARN中的套用提交 190
6.4 小結 195
第7章 自由的生態圈:Hadoop與Apache BigTop 197
7.1 基礎概念 198
7.1.1 軟體棧 199
7.1.2 測試棧 200
7.1.3 在我的筆記本電腦上工作 201
7.2 開發定製的軟體棧 201
7.2.1 Apache Bigtop:歷史 201
7.2.2 Apache Bigtop:概念和哲學思想 202
7.2.3 項目結構 204
7.2.4 談談構建系統 205
7.2.5 工具鏈和開發環境 206
7.2.6 BOM定義 207
7.3 部署 208
7.3.1 Bigtop Provisioner 208
7.3.2 群集的無主節點Puppet部署 209
7.3.3 使用Puppet進行配置管理 213
7.4 集成驗證 215
7.4.1 iTests和驗證應用程式 216
7.4.2 棧集成測試開發 217
7.4.3 棧的驗證 220
7.4.4 群集故障測試 221
7.4.5 棧的冒煙測試 222
7.5 將所有工作組合在一起 223
7.6 小結 224
第8章 Hadoop軟體棧的In-Memory計算 227
8.1 In-Memory計算簡介 229
8.2 Apache Ignite:記憶體優先 231
8.2.1 Apache Ignite的系統體系架構 232
8.2.2 數據格線 233
8.2.3 高可用性討論 236
8.2.4 計算格線 237
8.2.5 服務格線 238
8.2.6 記憶體管理 238
8.2.7 持久化存儲 240
8.3 使用Ignite加速舊式Hadoop 240
8.3.1 In-Memory存儲的好處 241
8.3.2 記憶體檔案系統:HDFS快取 242
8.3.3 In-Memory MapReduce 243
8.4 Apache Ignite的高級用法 247
8.4.1 Spark和Ignite 247
8.4.2 共享狀態 249
8.4.3 Hadoop上的In-Memory SQL 251
8.4.4 使用Ignite的SQL 252
8.4.5 使用Apache Ignite進行流處理 255
8.5 小結 256
術語表 259

相關詞條

熱門詞條

聯絡我們