雲計算環境下面向大數據的線上聚集並行最佳化機制研究

《雲計算環境下面向大數據的線上聚集並行最佳化機制研究》是依託東南大學,由宋愛波擔任項目負責人的面上項目。

基本介紹

  • 中文名:雲計算環境下面向大數據的線上聚集並行最佳化機制研究
  • 項目類別:面上項目
  • 項目負責人:宋愛波
  • 依託單位:東南大學
中文摘要,結題摘要,

中文摘要

線上聚集是將面向數據完全掃描的精確查詢計算轉變成面向隨機樣本的近似查詢計算,在當今的大數據時代,這是一個非常重要數據處理方法,尤其是對查詢精度要求不是太高的套用,如趨勢分析、評估、預測等數據分析場景中。目前,線上聚集已有的研究工作主要是在現有雲計算架構下的部署與實現問題,確保其功能的可用性,沒有從雲計算架構下的數據組織、任務執行等方面對線上聚集進行性能最佳化。本項目以提高雲環境下線上聚集查詢的執行性能為目標,針對當前雲環境下影響線上聚集查詢執行性能的採樣效率、數據放置、多查詢的並發和估計失效等問題,深入研究雲計算PaaS層面向線上聚集查詢的數據組織管理、並發查詢最佳化和查詢模式切換的有關機理和機制,為大數據近似估計查詢的高效並行計算提供技術支撐。本項目將實現一套雲計算線上聚集原型系統,在東南大學雲計算平台部署驗證,並套用到社交網路、電子商務等大數據分析套用中,推動我國大數據處理的研究。

結題摘要

針對在Hadoop框架下,線上聚集查詢作業被分解成若干子任務並指派到合適的節點獨立完成各自的隨機採樣、統計量計算以及近似估計等過程時,沒有考慮多查詢任務之間的最佳化問題,首先研究了用戶提交的多查詢任務到Hadoop並行計算框架的翻譯過程,在Hadoop並行計算框架作業級,制定作業合併規則,合併相似查詢的作業;其次在Hadoop並行計算框架任務級,研究分析了建立相似查詢作業的採樣相關性與計算相關性理論模型,使之共享數據採樣和統計量計算,減少冗餘開銷;最後,搭建雲計算線上聚集系統的研究試驗平台,進一步探究了基於記憶體計算的可行性。

相關詞條

熱門詞條

聯絡我們