內容簡介,前言,
內容簡介
本書首先介紹了Hadoop的背景知識,包括Hadoop 2和YARN的工作原理和對Hadoop 1的改進,然後將數據湖與傳統存儲比較。第2章到第8章,分別介紹了Hadoop 2和核心服務的安裝方法、Hadoop分散式檔案系統、MapReduce和YARN編程,以及利用Apache Pig等Hadoop工具簡化編程。
最後兩章講述了利用Apache Ambari等工具管理Hadoop和基本的管理程式。附錄包括Hadoop 2故障診斷和排除的基礎知識、Apache Hue和Apache Spark安裝等。本書通俗易懂,具有大量操作實例,易於上手,適合Hadoop用戶、管理員、開發和運維人員、程式設計師、架構師、分析師和數據科學工作者閱讀。
前言
序言 Apache Hadoop 2引進了加工和處理數據的新方法,這些方法都超越了原始Hadoop實現的基本MapReduce範式。本書詳盡地介紹了Hadoop 2中的概念和工具,無論是Hadoop新人或曾使用過早期版本的經驗豐富的專業人員,都能從中獲益。 在過去的幾年中,在原Hadoop項目的保護傘下已經誕生了許多項目,這些項目在與原始Hadoop項目保持良好集成的同時,還使得存儲、處理和收集大。