《集群環境下基於記憶體的大數據分析技術研究》是依託哈爾濱工業大學,由王金寶擔任項目負責人的青年科學基金項目。
基本介紹
- 中文名:集群環境下基於記憶體的大數據分析技術研究
- 依託單位:哈爾濱工業大學
- 項目類別:青年科學基金項目
- 項目負責人:王金寶
項目摘要,結題摘要,
項目摘要
隨著大數據時代的到來,人類產生、擁有和使用的數據量已從TB級增長到PB級甚至EB級,而且繼續加速增長。大數據中蘊含著能夠促進各行各業發展的巨大價值,而大數據分析是套用大數據價值的有效手段。然而集群環境下基於外存的方法和傳統的記憶體數據管理技術都無法在規模如此龐大的數據中高效、低代價地處理分析查詢。如何有效地支持大數據分析是目前人們面臨的重要挑戰。本項目從數據管理的角度出發,針對大數據體積大、價值密度低的特點,將分散式計算和記憶體數據管理技術相結合,構建集群環境下基於記憶體的大數據分析系統。本項目以提高大數據分析效率、降低大數據分析經濟代價為目標,研究集群環境下基於記憶體的大數據分析系統中的大數據索引、分析查詢處理的關鍵理論和技術,包括大數據分析所需的多種索引結構;精確的分析查詢處理算法和近似的分析查詢處理算法;分析查詢性能與系統能耗方面的最佳化方法;通過構建的原型系統驗證所提出算法的正確性和有效性。
結題摘要
近年來,大數據出現在人類社會的各個行業中,其體積巨大和價值密度低的特點為大數據分析帶來了前所未有的挑戰。與此同時,集群環境的日益普及也為大數據分析提供了良好的潛在計算平台。然而,現有的依賴於外存的大數據分析方法計算效率低下,傳統的記憶體數據管理技術也無法有效地處理大數據集合,如何高效地在集群環境下基於記憶體來完成大數據分析任務已經成為十分重要的挑戰性問題。本課題針對集群環境下基於記憶體的計算平台,研究大數據分析的相關關鍵基礎理論和技術,主要包括集群環境下基於記憶體的大數據分析所需要的索引技術、查詢算法和最佳化算法,從大數據存儲與索引、分析查詢處理算法和分析查詢最佳化算法三個層面解決大數據分析問題,並構建大數據分析原型系統用於驗證相關算法的有效性。本課題執行期間取得了良好的進展,產出了一系列研究成果並發表於知名國際期刊和重要國際學術會議。