基於Hadoop的分散式並行在線上分析處理技術研究

《基於Hadoop的分散式並行在線上分析處理技術研究》是依託東北大學,由鮑玉斌擔任項目負責人的面上項目。

基本介紹

  • 中文名:基於Hadoop的分散式並行在線上分析處理技術研究
  • 項目類別:面上項目
  • 項目負責人:鮑玉斌
  • 依託單位:東北大學
中文摘要,結題摘要,

中文摘要

傳統的OLAP技術,在進行OLAP分析時不能再設定數據的過濾條件,只能在分析的維度上選擇相應的值範圍作為分析條件。實際上,這樣的分析過於簡單,不能滿足套用需求。另外,目前的OLAP技術不能很好地支持複雜的聚集查詢(例如分位數、眾數)。另外傳統的並行OLAP技術存在負載均衡困難以及系統伸縮性差等問題。而基於Hadoop的並行處理模式可伸縮性好且負載均衡容易。本項目提出了用於分散式並行處理的OLAP模型,直方圖立方HistCube。基於此模型,研究基於Hadoop架構的解決上述問題的分散式並行OLAP技術。研究內容包括:(1)多維聚集查詢通用模型;(2)HistCube的計算、存儲和更新技術;(3)基於HistCube模型的支持OLAP操作的聚集查詢與最佳化算法;(4)HistCube的分散式並行索引與最佳化技術。目標是研究能夠解決上述問題的用於OLAP的通用模型和高效聚集查詢算法及其相關技術。

結題摘要

傳統的OLAP技術,在進行OLAP分析時不能再設定數據的過濾條件,只能在分析的維度上選擇相應的值範圍作為分析條件。實際上,這樣的分析過於簡單,不能滿足套用需求。另外,目前的OLAP技術不能很好地支持複雜的聚集查詢(例如分位數、眾數)。另外傳統的並行OLAP技術存在負載均衡困難以及系統伸縮性差等問題。而基於Hadoop的並行處理模式可伸縮性好且負載均衡容易。本項目提出了一個面向多維聚集查詢的通用模型。並從一下幾點進行重點研究:(1)多維聚集查詢通用模型的研究,給出了利用統計直方圖作為統計存儲的中間結果,這樣可以解決上面的幾個問題,同時可以回答多種類型的聚集查詢;(2)基於Hadoop的HistCube的計算、存儲和更新技術,利用Hadoop環境,設計了3種快速計算封閉數據立方的算法,例如,基本的封閉直方圖立方計算算法、MRC-Cubing算法、改進的MRC-Cubing算法,為了降低數據立方需要很大的存儲空間的問題,我們設計了多種數據壓縮方法,例如從算法內部的直方圖表述方式、從直方圖的存儲檔案的壓縮等方面;大數據需要不斷的追加新數據,因此提出了數據立方的更新策略,即主立方和子立方共存,適當時機進行重新計算,而非增量更新;(3)基於Hadoop的HistCube上多種聚集查詢算法研究:我們在查詢結果的基礎上,設計了多種聚集函式運算元,包括匯總(sum)、均值(average)、方差(variance)、r-分位數(r-quantile)、眾數(mode)、Topk等;同時研究了基於HBase存儲數據立方結果,以及基於Impala完成查詢的過程;(4)基於Hadoop的HistCube上的索引與最佳化技術:為了加快在數據立方上的聚集查詢速度,設計針對HDFS檔案系統和HBase的兩種索引檔案;(5)為了跟好地在Hadoop環境下進行研究和開發以及綠色查詢計算,提出了雲計算環境下的能耗模型以及能耗的測量和計算方法,設計了雲計算環境下大數據處理的測試基準,提出了Web套用SaaS化的自動化方法,即設計了將已有套用SaaS化的,命令集,自動完成Web套用的SaaS化;(6)在MapReduce模型之外,我們研究了基於BSP模型的大(圖)數據疊代計算中的關鍵技術問題和原型系統的研製,提出了套用不同場合的三種圖數據劃分方法,即BHP算法、EC-VHP和OnFly算法。

相關詞條

熱門詞條

聯絡我們