基於Hadoop的分散式並行在線上分析處理技術研究

中文摘要

傳統的OLAP技術，在進行OLAP分析時不能再設定數據的過濾條件，只能在分析的維度上選擇相應的值範圍作為分析條件。實際上，這樣的分析過於簡單，不能滿足套用需求。另外，目前的OLAP技術不能很好地支持複雜的聚集查詢（例如分位數、眾數）。另外傳統的並行OLAP技術存在負載均衡困難以及系統伸縮性差等問題。而基於Hadoop的並行處理模式可伸縮性好且負載均衡容易。本項目提出了用於分散式並行處理的OLAP模型，直方圖立方HistCube。基於此模型，研究基於Hadoop架構的解決上述問題的分散式並行OLAP技術。研究內容包括：(1)多維聚集查詢通用模型；(2)HistCube的計算、存儲和更新技術；(3)基於HistCube模型的支持OLAP操作的聚集查詢與最佳化算法；(4)HistCube的分散式並行索引與最佳化技術。目標是研究能夠解決上述問題的用於OLAP的通用模型和高效聚集查詢算法及其相關技術。

結題摘要

傳統的OLAP技術，在進行OLAP分析時不能再設定數據的過濾條件，只能在分析的維度上選擇相應的值範圍作為分析條件。實際上，這樣的分析過於簡單，不能滿足套用需求。另外，目前的OLAP技術不能很好地支持複雜的聚集查詢（例如分位數、眾數）。另外傳統的並行OLAP技術存在負載均衡困難以及系統伸縮性差等問題。而基於Hadoop的並行處理模式可伸縮性好且負載均衡容易。本項目提出了一個面向多維聚集查詢的通用模型。並從一下幾點進行重點研究：（1）多維聚集查詢通用模型的研究，給出了利用統計直方圖作為統計存儲的中間結果，這樣可以解決上面的幾個問題，同時可以回答多種類型的聚集查詢；（2）基於Hadoop的HistCube的計算、存儲和更新技術，利用Hadoop環境，設計了3種快速計算封閉數據立方的算法，例如，基本的封閉直方圖立方計算算法、MRC-Cubing算法、改進的MRC-Cubing算法，為了降低數據立方需要很大的存儲空間的問題，我們設計了多種數據壓縮方法，例如從算法內部的直方圖表述方式、從直方圖的存儲檔案的壓縮等方面；大數據需要不斷的追加新數據，因此提出了數據立方的更新策略，即主立方和子立方共存，適當時機進行重新計算，而非增量更新；（3）基於Hadoop的HistCube上多種聚集查詢算法研究：我們在查詢結果的基礎上，設計了多種聚集函式運算元，包括匯總（sum）、均值（average）、方差（variance）、r-分位數（r-quantile）、眾數（mode）、Topk等；同時研究了基於HBase存儲數據立方結果，以及基於Impala完成查詢的過程；（4）基於Hadoop的HistCube上的索引與最佳化技術：為了加快在數據立方上的聚集查詢速度，設計針對HDFS檔案系統和HBase的兩種索引檔案；（5）為了跟好地在Hadoop環境下進行研究和開發以及綠色查詢計算，提出了雲計算環境下的能耗模型以及能耗的測量和計算方法，設計了雲計算環境下大數據處理的測試基準，提出了Web套用SaaS化的自動化方法，即設計了將已有套用SaaS化的，命令集，自動完成Web套用的SaaS化；（6）在MapReduce模型之外，我們研究了基於BSP模型的大（圖）數據疊代計算中的關鍵技術問題和原型系統的研製，提出了套用不同場合的三種圖數據劃分方法，即BHP算法、EC-VHP和OnFly算法。

基於Hadoop的分散式並行在線上分析處理技術研究

基本介紹

中文摘要

結題摘要

相關詞條

熱門詞條