《雲計算環境下基於維存儲的OLAP聚集計算關鍵技術研究》是依託東南大學,由宋愛波擔任項目負責人的面上項目。
基本介紹
- 中文名:雲計算環境下基於維存儲的OLAP聚集計算關鍵技術研究
- 項目類別:面上項目
- 項目負責人:宋愛波
- 依託單位:東南大學
中文摘要,結題摘要,
中文摘要
在線上分析處理(OLAP)要在超大規模的海量數據上進行複雜聚集查詢,及時向用戶提供分析數據。影響OLAP聚集計算效率的關鍵技術是OLAP海量聚集數據的存取技術、數據立方體Cube的計算技術和查詢最佳化技術。本項目藉助雲計算來攻克制約影響OLAP分析的三大關鍵技術,為解決高維OLAP數據在線上分析與處理提供實用有效的方法。研製雲環境下基於維值的OLAP海量數據分散式存儲管理系統和基於維存儲的多維數據的並行操作運算及最佳化方法,在此基礎上建立高維OLAP聚集數據的分散式海量數據處理平台,支持對高維數據的遠程訪問、共享和處理,滿足大規模高維OLAP海量數據分析與處理的需要。實現一個基於雲環境的高效在線上分析與處理原型系統,並將其套用到科學實驗統計、醫療數據、環境氣象、生物信息計算與挖掘等海量數據分析的套用領域,為這些領域的高維海量聚集數據存儲和快速在線上分析提供一個實用的基於雲環境的在線上分析與處理平台。
結題摘要
在三年的研究過程中,項目組針對OLAP海量數據處理問題,給出了針對傾斜數據的OLAP線上聚集算法,有效解決了傾斜數據對線上聚集的影響,大幅提升了線上聚集執行性能;定義了一種新的列檔案存儲格式HCFile(Hadoop Column File),將多維數據以星形模式組織,數據表按列檔案格式進行存儲,實現了基於Hadoop的OLAP數據按維存儲,大大提高了OLAP多維聚集計算效率;給出了SQL查詢到MapReduce工作流的翻譯最佳化算法,合併具有相關性的作業,提高SQL執行效率;提出了雲計算環境下的任務指派有效算法,該算法綜合考慮了數據檔案放置、網路頻寬和集群負載,以作業完成時間為最佳化目標,能夠快速計算出高效的任務指派方案;建立了基於MapReduce框架的QoS偏好感知的副本選擇策略。針對數據中心的能耗成本最佳化問題,提出了基於動態定價策略的數據中心能耗成本最佳化方案;結合伺服器動態開關和動態頻率調節策略,提出了基於自反饋的伺服器動態控制算法。同時,項目組在Dell集群上(32個計算節點)上部署了Hadoop環境,進行了相關算法模型的驗證測試,開發了OLAP聚集計算原型系統。