Apache Hadoop

Apache Hadoop

Apache Hadoop是一套用於在由通用硬體構建的大型集群上運行套用程式的框架。它實現了Map/Reduce編程范型,計算任務會被分割成小塊(多次)運行在不同的節點上。除此之外,它還提供了一款分散式檔案系統HDFS),數據被存儲在計算節點上以提供極高的跨數據中心聚合頻寬。

基本介紹

  • 外文名:Apache Hadoop
  • 適用領域:大數據
  • 釋義:用於在由通用硬體構建的大型集群上運行套用程式的框架
框架介紹,框架作用,

框架介紹

許多提供Apache Hadoop大數據業務的廠商肯定都爭相想做企業的生意。畢竟,大的Apache Hadoop數據不是最小的數據集合,但Apache Hadoop大數據需要充分利用儘可能多的數據管理。如果你正在尋找一個部署Apache Hadoop大數據的定義,這卻不是完整的Apache Hadoop定義。你需要一個增長的Apache Hadoop數據中心基礎設施相匹配所有這些增長的數據。
這個大的數據熱潮才真正開始與Apache Hadoop分散式檔案系統,開啟了基於成本效益規模的伺服器使用相對便宜的本地磁碟群集的作為海量Apache Hadoop數據分析的時代。不管企業發展如何迅速,Apache Hadoop及Apache Hadoop相關大數據的解決方案,Apache Hadoop可以保證持續分析各種原始數據。
問題在於,一旦你想從Apache Hadoop大數據入手,會發現傳統的Apache Hadoop數據項目,包括那些熟悉的企業數據管理問題又會湧現出來了,比如Apache Hadoop數據的安全性,可靠性,性能和如何保護數據。
雖然Apache Hadoop HDFS已經趨於成熟,但仍有不少差距以滿足企業需求。事實證明,當Apache Hadoop大數據在進行產品生產數據收集時,這些存儲集群上的產品可能實際上沒有提供最低的成本核算。
這裡面,最關鍵的一點其實是大企業如何將Apache Hadoop大數據盤活了。我們當然不是想簡單地拷貝、移動、備份Apache Hadoop大數據數據副本,複製Apache Hadoop大數據是一個大的工作。我們需要管理作為安全和謹慎,甚至更多的要求,所以,比小的不同的Apache Hadoop資料庫,不要抱著儘可能多的Apache Hadoop詳細信息。如果我們的關鍵業務流程的基礎上新的Apache Hadoop大數據的儲存中,我們會需要它的所有的操作彈性和高性能。

框架作用

Apache Hadoop大數據歸屬的新選擇
物理DAS仍然是Apache Hadoop最好的存儲介質,因為相關的高水平的專業和業務的公司的都是經過研究和實踐來確定存儲介質。但這樣基於HDFS的Apache Hadoop數據儲存卻有很大的問題。
首先,默認方案是所有Apache Hadoop資料進行複製,移動,然後備份。HDFS是基於Apache Hadoop大數據塊的I/O最佳化,省去了Apache Hadoop數據互動的時間。以後的使用通常意味著Apache Hadoop數據複製出來。儘管有本地快照,但他們並不完全一致或時間點不完全可恢復。
對於這些和其他原因,企業存儲廠商聰明的將HDFS做改變,一些技術狂人類型的大數據專家使Apache Hadoop計算利用外部存儲。但對許多企業來說,Apache Hadoop提供了一個很好的妥協:無需高維護存儲或存儲新的維護方式的適應,但這有一定的成本。
許多Apache Hadoop供應商,提供對Apache Hadoop集群遠程HDFS的接口,是生意量比較大的Apache Hadoop企業首選。因為他們將是在isilon里,進行任何其他Apache Hadoop數據處理大數據的保護,其中包括Apache Hadoop安全和其他問題。另一個好處是,在外部存儲的數據通常可以訪問其他Apache Hadoop協定的儲存,支持工作流和限制數據的傳輸和企業內需要的數據副本。Apache Hadoop也基於這樣的原理處理大數據,一個大的數據參考架構,結合一個組合的存儲解決方案,直接進入Apache Hadoop集群。
另外值得一提的是,虛擬化Apache Hadoop大數據分析。理論上,所有計算和存儲節點可以都可以進行虛擬化。VMware和RedHat/OpenStack有Hadoop的虛擬化解決方案。然而,幾乎所有的Apache Hadoop主機節點不能解決企業的存儲問題。它模擬Apache Hadoop計算方面使企業把現有的數據集——SAN/NAS——加速和轉儲到它Apache Hadoop的HDFS的覆蓋之下。在這種方式中,Apache Hadoop大數據分析可以做到一個數據中心的數據沒有任何變動,從而使用新的Apache Hadoop存儲架構和新的數據流或數據管理的所有變化。
大多數Apache Hadoop分布都是從近Apache Hadoop的開源HDFS(目前軟體定義的存儲大數據)開始,區別是Apache Hadoop採取了不同的方法。這基本上就是企業Apache Hadoop所需存儲,從而建立自己的兼容存儲層在Apache Hadoop HDFS上。MAPR版本是完全有能力處理I/O快照複製的支持,Apache Hadoop同時和原生支持的其他協定兼容,如NFS。Apache Hadoop也非常有效,並有助於主要提供企業業務智慧型應用程式,運行決策支持解決方案依賴於大數據的歷史和實時信息。類似的想法,IBM已經出爐的高性能計算系統存儲API為Apache Hadoop發行版作為一種替代HDFS。
另一個Apache Hadoop有趣的解決方案可以幫助解決數據的問題。一個是dataguise,數據安全啟動,能切實有效地保護Apache Hadoop的大數據集的一些獨特的IP,Apache Hadoop可以在一個大的數據聚類自動識別和全局覆蓋或加密敏感資料。水平線數據科學是這個領域的新興技術,如果你連線登入你的數據檔案到Apache Hadoop,無論數據在哪裡,即使是HDFS,Apache Hadoop都將自動儲存。Apache Hadoop 大數據提供的產出物有助於快速建立商業套用,利用數據的來源和位置來統計商業所需的資料。
如果你一直持有Apache Hadoop的管理或企業數據中心存儲的興趣,這是一個好時機去update自己對Apache Hadoop大數據的了解,如果你想跟得上Apache Hadoop大數據的腳步,就不應該拒絕Apache Hadoop新技術的套用。

相關詞條

熱門詞條

聯絡我們