Hadoop:起源,優點,核心架構,HDFS,NameNode,DataNode,

Hadoop是一個由Apache基金會所開發的分散式系統基礎架構。用戶可以在不了解分散式底層細節的情況下，開發分散式程式。充分利用集群的威力進行高速運算和存儲。Hadoop實現了一個分散式檔案系統（ Distributed File System），其中一個組件是HDFS（Hadoop Distributed File System）。HDFS有高容錯性的特點，並且設計用來部署在低廉的（low-cost）硬體上；而且它提供高吞吐量（high throughput）來訪問應用程式的數據，適合那些有著超大數據集（large data set）的應用程式。HDFS放寬了（relax）POSIX的要求，可以以流的形式訪問（streaming access）檔案系統中的數據。Hadoop的框架最核心的設計就是：HDFS和MapReduce。HDFS為海量的數據提供了存儲，而MapReduce則為海量的數據提供了計算。

基本介紹

中文名：海杜普
外文名：Hadoop
類別：軟體系統
學科：信息科學
核心組件：HDFS,MapReduce和YARN
本質：大數據軟體系統運行框架

起源,優點,核心架構,HDFS,NameNode,DataNode,檔案操作,Linux 集群,應用程式,區別,信息安全,

起源

Hadoop起源於Apache Nutch項目，始於2002年，是Apache Lucene的子項目之一。2004年，Google在“作業系統設計與實現”（Operating System Design and Implementation，OSDI）會議上公開發表了題為MapReduce：Simplified Data Processing on Large Clusters（Mapreduce：簡化大規模集群上的數據處理）的論文之後，受到啟發的Doug Cutting等人開始嘗試實現MapReduce計算框架，並將它與NDFS（Nutch Distributed File System）結合，用以支持Nutch引擎的主要算法。由於NDFS和MapReduce在Nutch引擎中有著良好的套用，所以它們於2006年2月被分離出來，成為一套完整而獨立的軟體，並被命名為Hadoop。到了2008年年初，hadoop已成為Apache的頂級項目，包含眾多子項目，被套用到包括Yahoo在內的很多網際網路公司。

Hadoop圖示

優點

Hadoop是一個能夠對大量數據進行分散式處理的軟體框架。 Hadoop 以一種可靠、高效、可伸縮的方式進行數據處理。

Hadoop 是可靠的，因為它假設計算元素和存儲會失敗，因此它維護多個工作數據副本，確保能夠針對失敗的節點重新分布處理。

Hadoop 是高效的，因為它以並行的方式工作，通過並行處理加快處理速度。

Hadoop 還是可伸縮的，能夠處理 PB 級數據。

此外，Hadoop 依賴於社區服務，因此它的成本比較低，任何人都可以使用。

Hadoop是一個能夠讓用戶輕鬆架構和使用的分散式計算平台。用戶可以輕鬆地在Hadoop上開發和運行處理海量數據的應用程式。它主要有以下幾個優點：

1.高可靠性。Hadoop按位存儲和處理數據的能力值得人們信賴。

2.高擴展性。Hadoop是在可用的計算機集簇間分配數據並完成計算任務的，這些集簇可以方便地擴展到數以千計的節點中。

3.高效性。Hadoop能夠在節點之間動態地移動數據，並保證各個節點的動態平衡，因此處理速度非常快。

4.高容錯性。Hadoop能夠自動保存數據的多個副本，並且能夠自動將失敗的任務重新分配。

5.低成本。與一體機、商用數據倉庫以及QlikView、Yonghong Z-Suite等數據集市相比，hadoop是開源的，項目的軟體成本因此會大大降低。

Hadoop帶有用Java語言編寫的框架，因此運行在 Linux 生產平台上是非常理想的。Hadoop 上的應用程式也可以使用其他語言編寫，比如 C++。

Hadoop大數據處理的意義

Hadoop得以在大數據處理套用中廣泛套用得益於其自身在數據提取、變形和載入(ETL)方面上的天然優勢。Hadoop的分散式架構，將大數據處理引擎儘可能的靠近存儲，對例如像ETL這樣的批處理操作相對合適，因為類似這樣操作的批處理結果可以直接走向存儲。Hadoop的MapReduce功能實現了將單個任務打碎，並將碎片任務(Map)傳送到多個節點上，之後再以單個數據集的形式載入(Reduce)到數據倉庫里。

Hadoop架構圖

核心架構

Hadoop 由許多元素構成。其最底部是 Hadoop Distributed File System（HDFS），它存儲 Hadoop 集群中所有存儲節點上的檔案。HDFS的上一層是MapReduce 引擎，該引擎由 JobTrackers 和 TaskTrackers 組成。通過對Hadoop分散式計算平台最核心的分散式檔案系統HDFS、MapReduce處理過程，以及數據倉庫工具Hive和分散式資料庫Hbase的介紹，基本涵蓋了Hadoop分散式平台的所有技術核心。

HDFS

對外部客戶機而言，HDFS就像一個傳統的分級檔案系統。可以創建、刪除、移動或重命名檔案，等等。但是 HDFS 的架構是基於一組特定的節點構建的（參見圖 1），這是由它自身的特點決定的。這些節點包括 NameNode（僅一個），它在 HDFS 內部提供元數據服務；DataNode，它為 HDFS 提供存儲塊。由於僅存在一個 NameNode，因此這是 HDFS 1.x版本的一個缺點（單點失敗）。在Hadoop 2.x版本可以存在兩個NameNode，解決了單節點故障問題。

存儲在 HDFS 中的檔案被分成塊，然後將這些塊複製到多個計算機中（DataNode）。這與傳統的 RAID 架構大不相同。塊的大小（1.x版本默認為 64MB，2.x版本默認為128MB）和複製的塊數量在創建檔案時由客戶機決定。NameNode 可以控制所有檔案操作。HDFS 內部的所有通信都基於標準的 TCP/IP 協定。

NameNode

NameNode 是一個通常在 HDFS 實例中的單獨機器上運行的軟體。它負責管理檔案系統名稱空間和控制外部客戶機的訪問。NameNode 決定是否將檔案映射到 DataNode 上的複製塊上。對於最常見的 3 個複製塊，第一個複製塊存儲在同一機架的不同節點上，最後一個複製塊存儲在不同機架的某個節點上。

Hadoop

基本介紹

起源

優點

核心架構

HDFS

NameNode

DataNode

檔案操作

Linux 集群

應用程式

區別

信息安全

相關詞條

熱門詞條