《基於Hadoop的分散式並行在線上分析處理技術研究》是依託東北大學,由鮑玉斌擔任項目負責人的面上項目。
基本介紹
- 中文名:基於Hadoop的分散式並行在線上分析處理技術研究
- 項目類別:面上項目
- 項目負責人:鮑玉斌
- 依託單位:東北大學
《基於Hadoop的分散式並行在線上分析處理技術研究》是依託東北大學,由鮑玉斌擔任項目負責人的面上項目。
PHAT-Data™(Peta-Scale Hadoop分析技術)一站式Hadoop集群解決方案,由AMAX集團於2013年研發成功,兼容不同Hadoop distributions (Cloudera,Hortonworks , IDH 等),配置包含專有數據加速器。僅需3個節點,PHAT-Data可在12分鐘內處理完...
Hadoop 是高效的,因為它以並行的方式工作,通過並行處理加快處理速度。Hadoop 還是可伸縮的,能夠處理 PB 級數據。此外,Hadoop 依賴於社區服務,因此它的成本比較低,任何人都可以使用。Hadoop是一個能夠讓用戶輕鬆架構和使用的分散式計算...
《基於Hadoop的大數據分析和處理》是2017年電子工業出版社出版的圖書,作者是魏祖寬、劉兆宏。內容簡介 本書基於雲計算和大數據,介紹大數據處理和分析的技術,分為兩部分。第一部分介紹Hadoop基礎知識,內容包括:Hadoop的介紹和集群構建、...
《高性能分散式計算系統開發與實現:基於Hadoop,Scalding和Spark》是2018年機械工業出版社出版的圖書,作者是斯里尼瓦沙。內容簡介 本書分兩部分,共8章,介紹了如何使用開源工具和技術開發與實現大規模分散式處理系統,涵蓋構建高性能分散式...
YARN技術、MapReduce技術、Hadoop I/O操作、海量資料庫技術HBase、ZooKeeper技術、分散式數據倉庫技術Hive、分散式數據分析工具Pig,以及數據遷移工具Sqoop,最後對大數據實時處理技術做了簡單介紹,旨在讓讀者了解當前其他的大數據處理技術。
著重講述了Hadoop MapReduce大數據處理系統的組成結構、工作原理和編程模型,分析了基於MapReduce的各種大數據並行處理算法和程式設計的思想方法。適合高等院校作為MapReduce大數據並行處理技術課程的教材,...
平台構建過程中主要涉及到電子商務數據分析理論,以此為基礎,利用Hadoop技術和Map/Reduce技術具體構建系統架構,並利用數據挖掘技術、在線上分析處理技術等實現套用目標。電子商務數據中包含著大量的信息,傳統的數據處理方式只能夠從統計的角度...
1.5 大數據處理系統的容錯性 1.5.1 數據存儲容錯 1.5.2 計算任務容錯 1.6 大數據處理的雲計算變革 本章參考文獻 第2章 基於Hadoop的大數據處理架構 2.1 Google核心雲計算技術 2.1.1 並行計算編程模型MapReduce 2.1.2 分散式...
主要內容包括大數據基本概念、大數據存儲與管理概念及技術、大數據採集及預處理技術、大數據計算模式、大數據分散式並行處理框架Hadoop、大數據分散式檔案系統HDFS、大數據分散式資料庫系統HBASE、大數據Hadoop平台操作實踐及具體大數據預測套用案例分析...
近期關注海量數據的流式處理、Hadoop上的大數據套用與挖掘等。陳湘萍,北京大學計算機系博士,目前就職於中山大學,專注於Hadoop、雲計算、軟體中間件、模型驅動的軟體工程等技術的研究和實踐。擁有發明專利5項,參與1項國家電子行業標準的制定...
近期關注海量數據的流式處理、Hadoop上的大數據套用與挖掘等。陳湘萍,北京大學計算機系博士,目前就職於中山大學,專注於Hadoop、雲計算、軟體中間件、模型驅動的軟體工程等技術的研究和實踐。擁有發明專利5項,參與1項國家電子行業標準的制定...
1.5 大數據處理系統的容錯性 1.5.1 數據存儲容錯 1.5.2 計算任務容錯 1.6 大數據處理的雲計算變革 本章參考文獻 第2章 基於Hadoop的大數據處理架構 2.1 Google核心雲計算技術 2.1.1 並行計算編程模型MapReduce 2.1.2 分散式...
《Hadoop大數據技術原理與套用》是2019年5月清華大學出版社出版的圖書,作者是黑馬程式設計師。內容簡介 本書圍繞Hadoop生態圈相關係統介紹大數據處理架構。全書共11章,其中,第1、2章主要帶領大家認識Hadoop以及學會搭建Hadoop集群;第3~5章...
不同於Hadoop和Spark,Storm不進行數據的收集和存儲工作,它直接通過網路實時的接受數據並且實時的處理數據,然後直接通過網路實時的傳回結果。Hadoop,Spark和Storm是最重要的三大分散式計算系統,Hadoop常用於離線的複雜的大數據分析處理,Spark...
《基於Hadoop雲計算的海量植物葉片圖像處理關鍵技術研究》是2016年吉林大學出版社出版的圖書。內容簡介 本書以Hadoop雲計算為基礎,對海量植物葉片圖像處理關鍵技術進行了研究,主要內容如下:(1)提出了基於Closed-form摳圖算法的複雜背景下...
所以考慮使用Hadoop分散式計算平台來進行計算。Hadoop的實現的MapReduce計算框架為設計分散式算法提供了簡單易懂的編程模型。截至2016年8月,利用Hadoop分散式平台計算網路拓撲特徵參數還沒有成熟的技術。由於分散式環境的數據存儲、數據處理和單機...
hive 並非為在線上事務處理而設計,hive 並不提供實時的查詢和基於行級的數據更新操作。hive 的最佳使用場合是大數據集的批處理作業,例如,網路日誌分析。設計特徵 hive 是一種底層封裝了Hadoop 的數據倉庫處理工具,使用類SQL 的hiveSQL ...