Hadoop是一個由Apache基金會所開發的分散式系統基礎架構。用戶可以在不了解分散式底層細節的情況下,開發分散式程式。充分利用集群的威力進行高速運算和存儲。Hadoop實現了一個分散式檔案系統( Distributed File System),其中一個組件是HDFS(...
Apache Hadoop YARN (Yet Another Resource Negotiator,另一種資源協調者)是一種新的 Hadoop 資源管理器,它是一個通用資源管理系統,可為上層套用提供統一的資源管理和調度,它的引入為集群在利用率、資源統一管理和數據共享等方面帶來...
Apache Hadoop是一款免費的,基於Java的編程框架,專為分散式計算環境下的超大數據量並行處理而設計。Hadoop支持以容錯方式擴展,可以從一台計算機擴展到數千台。這種擴展性意味著處理集群中的個體計算機可以是比較廉價的,而集群本身也很有...
Apache Hadoop是美國阿帕奇(Apache)軟體基金會的一套開源的分散式系統基礎架構。該產品能夠對大量數據進行分散式處理,並具有高可靠性、高擴展性、高容錯性等特點。Apache Hadoop存在安全漏洞,該漏洞源於Web端點身份驗證檢查被破壞。經過身份...
書中利用多個實例,詳細介紹Hadoop YARN的安裝和管理,以幫助用戶使用YARN進行套用開發,並在YARN上運行除了MapReduce之外的新框架。《Hadoop YARN指南》共12章,第1章講述Apache Hadoop YARN產生和發展的歷史;第2章講解在單台機器(工作...
由於Apache軟體基金會在開源伺服器技術上的卓越貢獻,榮獲了著名IT雜誌SD Times頒發的2013 SD Times 100獎項,位於“極大影響力”分類第二位,僅次於亞馬遜。也由於hadoop在大數據處理和大數據挖掘上的出色表現,ASF也榮獲了“大數據和商業...
《Hadoop權威指南(中文版)》是2010年清華大學出版社出版的圖書,作者是(美)TomWhite。內容簡介 本書是您縱情享用數據之美的得力助手。作為處理海量數據集的理想工具,Apache Hadoop架構是MapReduce算法的一種開源套用,是Google(谷歌)開創...
Apache Accumulo 是一個排序分散式的 Key-Value 存儲解決方案。內容介紹 Apache Accumulo 基於單元訪問控制以及可定製的伺服器端處理。使用 Google BigTable 設計思路,基於 Apache Hadoop、Zookeeper 和 Thrift 構建。數據存儲 Accumulo是一個...
《Hadoop套用架構》是2017年1月人民郵電出版社出版的圖書,作者是[美]馬克·格洛沃、[美]泰德·馬拉斯卡、[美]喬納森·西德曼、[美]格溫·沙奇拉。內容簡介 本書就使用Apache Hadoop端到端數據管理方案提供專業架構指導。其他書籍大多...
Apache Kylin™是一個開源的分散式分析引擎,提供Hadoop之上的SQL查詢接口及多維分析(OLAP)能力以支持超大規模數據,最初由eBay Inc. 開發並貢獻至開源社區。它能在亞秒內查詢巨大的Hive表。軟體簡介 Apache Kylin 最初由ebay開發,現...
本書通俗易懂,具有大量操作實例,易於上手,適合Hadoop用戶、管理員、開發和運維人員、程式設計師、架構師、分析師和數據科學工作者閱讀。前言 序言 Apache Hadoop 2引進了加工和處理數據的新方法,這些方法都超越了原始Hadoop實現的基本Map...
10.7 使用EMR在亞馬遜EC2雲上部署Apache HBase集群 222 10.8 使用EMR引導操作來配置亞馬遜EMR作業的虛擬機 226 10.9 使用Apache Whirr在雲環境中部署Apache Hadoop集群 228 10.10 使用Apache Whirr在雲環境中部署Apache HBase集群 231...
《Hadoop套用開發基礎》是2019年8月人民郵電出版社出版的圖書,作者是劉雯、王文兵。內容簡介 Hadoop是一個分散式系統的基礎架構,支持對大量數據進行分散式處理,能以高效、可靠的方式完成數據處理。本書圍繞Hadoop生態圈技術進行講解,主要...
1.2.3 Hadoop和Spark 承擔的角色9 1.3 工具和技術9 1.4 實際環境中的用例11 1.5 小結12 第2章 Apache Hadoop和Apache Spark入門13 2.1 Apache Hadoop概述13 2.1.1 Hadoop 分散式檔案系統 14 2.1.2 HDFS 的特性15...
2.1 Hadoop的發行版本選擇 22 2.1.1 Apache Hadoop 22 2.1.2 CDH 22 2.1.3 Hadoop的版本 23 2.1.4 如何選擇Hadoop的版本 25 2.2 Hadoop架構 26 2.2.1 Hadoop HDFS架構 27 2.2.2 YARN架構 28 2.2.3...
2.1 Hadoop的發行版本選擇 22 2.1.1 Apache Hadoop 22 2.1.2 CDH 22 2.1.3 Hadoop的版本 23 2.1.4 如何選擇Hadoop的版本 25 2.2 Hadoop架構 26 2.2.1 Hadoop HDFS架構 27 2.2.2 YARN架構 28 2.2.3...
Tachyon是一個高性能、高容錯、基於記憶體的開源分散式存儲系統,並具有類Java的檔案API、外掛程式式的底層檔案系統、兼容Hadoop MapReduce和Apache Spark等特徵。Tachyon能夠為集群框架(如Spark、MapReduce等)提供記憶體級速度的跨集群檔案共享服務。
針對這個問題, Apache 同樣提出了相應的解決方案,那就是 chukwa。chukwa 的官方網站是這樣描述自己的: chukwa 是一個開源的用於監控大型分散式系統的數據收集系統。這是構建在 hadoop 的 hdfs 和 map/reduce 框架之上的,繼承了 hadoop...
HDFS是Apache Hadoop Core項目的一部分。HDFS有著高容錯性(fault-tolerant)的特點,並且設計用來部署在低廉的(low-cost)硬體上。而且它提供高吞吐量(high throughput)來訪問應用程式的數據,適合那些有著超大數據集(large data set)...
Apache Sqoop就是這樣一款工具,可以在Hadoop和關係型資料庫之間轉移大量數據。特徵 對於某些NoSQL資料庫它也提供了連線器。Sqoop,類似於其他ETL工具,使用元數據模型來判斷數據類型並在數據從數據源轉移到Hadoop時確保類型安全的數據處理。
自此,Hadoop成為Apache開源組織下最重要的項目,自其推出後很快得到了全球學術界和工業界的普遍關注,並得到推廣和普及套用。MapReduce的推出給大數據並行處理帶來了巨大的革命性影響,使其已經成為事實上的大數據處理的工業標準。儘管Map...
Apache Ambari是一種基於Web的工具,支持Apache Hadoop集群的供應、管理和監控。Ambari已支持大多數Hadoop組件,包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeeper、Sqoop和Hcatalog等。Apache Ambari 支持HDFS、MapReduce、Hive、Pig、Hbase...
HBase是Apache的Hadoop項目的子項目。HBase不同於一般的關係資料庫,它是一個適合於非結構化數據存儲的資料庫。另一個不同的是HBase基於列的而不是基於行的模式。結構介紹 HBase – Hadoop Database,是一個高可靠性、高性能、面向...
對於像Hadoop一樣的日誌數據和離線分析系統,但又要求實時處理的限制,這是一個可行的解決方案。Kafka的目的是通過Hadoop的並行載入機制來統一線上和離線的訊息處理,也是為了通過集群來提供實時的訊息。名字由來 kafka的架構師jay kreps對於...
《Hive編程》是2013年東南大學出版社出版的圖書。內容簡介 你是否需要把一個關係型資料庫套用遷移到Hadoop上?卡普里奧羅等著的《Hive編程(影印版)》這本全面的指南將為你介紹ApacheHive,它是Hadoop的數據倉庫平台。你將快速了解如何...
hive是基於Hadoop的一個數據倉庫工具,用來進行數據提取、轉化、載入,這是一種可以存儲、查詢和分析存儲在Hadoop中的大規模數據的機制。hive數據倉庫工具能將結構化的數據檔案映射為一張資料庫表,並提供SQL查詢功能,能將SQL語句轉變成Map...