科學大數據處理最佳化理論與關鍵技術研究

科學大數據處理最佳化理論與關鍵技術研究

《科學大數據處理最佳化理論與關鍵技術研究》是依託華中科技大學,由石宣化擔任項目負責人的面上項目。

基本介紹

  • 中文名:科學大數據處理最佳化理論與關鍵技術研究
  • 項目類別:面上項目
  • 項目負責人:石宣化
  • 依託單位:華中科技大學
中文摘要,結題摘要,

中文摘要

在大數據與第四範式的時代背景下,傳統的數據密集型計算面臨著新的機遇與挑戰。科學領域的數據具有非增量式特徵,數據的處理具有多疊代、頻域計算多等特點,傳統高性能計算中以記憶體共享與訊息通信為中心的數據處理方式已不能應對大數據特徵的科學數據處理,高性能計算機I/O系統邊緣化設計現狀使得這一問題尤為突出。本課題圍繞高性能計算機上科學大數據處理的I/O瓶頸與可靠性問題,對其展開深入研究。課題圍繞三個方面開展:(1)研究高性能計算機架構下的數據密集型編程模型,包括數據並行規則、可靠性保證等;(2)研究數據訪問目的驅動的線上I/O性能最佳化方法,包括數據處理線上Profiling、記憶體復用機制、增量處理等;(3)研究結構感知的科學大數據處理數據分割與數據調度算法,包括科學大數據的靜態分割與數據動態調度。本課題的成功研究將有助於促進高性能計算技術的發展,拓寬高性能計算的套用領域。

結題摘要

本課題從數據密集型編程框架、I/O性能最佳化、大數據處理數據分割與數據調度算法等方面開展研究。研究了以記憶體為中心的並行數據處理系統Mammoth,可擴展的大規模分散式協調器GIRAFFE等數據處理系統,比國際上主流數據計算系統效率更高,得到國際同行的高度認可,相關成果被美國電子和電氣工程師協會會刊作為亮點技術推薦以及Cluster國際會議最佳論文提名。同時還提出了分散式數據處理系統中基於對象生命周期的記憶體管理機制、SSD高效寫快取機制,相關成果發表在VLDB、ICS上。在數據訪問目的驅動的線上I/O性能最佳化技術方面提出了基於疊代處理的Collective I/O策略,相關成果發表在ICWS、CCGrid會議和FGCS期刊上。結構感知的科學大數據處理數據分割與數據調度算法研究方面研發了面向彈性雲計算的解耦合MapReduce框架,In-Memory MapReduce系統記憶體效率最佳化機制以及GPU上基於著色的異步圖計算系統。相關成果發表在PPoPP、ICA3PP等學術會議和TKDE期刊上。在國際ASF 以及Github上開源發布了Mammoth、GIRAFFE、SSDUP、Frog等系統。

相關詞條

熱門詞條

聯絡我們