大規模數據處理中的高可靠性GPU集群關鍵技術研究

大規模數據處理中的高可靠性GPU集群關鍵技術研究

《大規模數據處理中的高可靠性GPU集群關鍵技術研究》是依託華中科技大學,由袁凌擔任項目負責人的青年科學基金項目。

基本介紹

  • 中文名:大規模數據處理中的高可靠性GPU集群關鍵技術研究
  • 項目類別:青年科學基金項目
  • 項目負責人:袁凌
  • 依託單位:華中科技大學
項目摘要,結題摘要,

項目摘要

隨著大規模數據處理對處理器計算能力與存儲頻寬的要求越來越高,將GPU集群套用於大規模數據處理成為此領域的研究熱點。申請此項目旨在研究如何保證大規模數據處理在GPU集群中的可靠性和高效性。為保證大規模數據在GPU集群發生錯誤時能繼續處理,研究結合虛擬機與協同式檢查點/回滾技術的低消耗容錯技術,主要包括如何確立GPU建立檢查點的時間,如何確立建立檢查點的時間間隔,以及如何保存各結點的檢查點信息等。為降低GPU集群中大規模數據處理所引起的傳輸開銷,研究合理的數據布局方案,主要包括如何確保各結點的負載均衡,如何減少數據間的依賴性,以及如何在GPU多層次存儲結構上最佳化分配數據等。為有效管理大規模數據處理中GPU集群各結點之間以及結點內部的訊息傳遞,研究如何將MPI和CUDA緊密結合,設計統一的通信語義環境。此項目的研究能為大規模數據處理相關套用提供高效性和可靠性兼顧的的運行平台。

結題摘要

隨著網路搜尋引擎、無線感測器、生物信息等高新技術的快速發展,產生了需要高效處理的規模能達到TB甚至PB級別的數據量。這些大規模數據的及時處理需要處理器具備強大的計算能力和存儲頻寬,而CPU的計算與存儲能力跟不上數據規模與複雜度的增長需求,而將GPU(Graphic Processing Unit)圖形處理器套用於大規模數據的並行處理是解決此問題的一個重要研究方向。而GPU的高存儲頻寬、低能耗很適合將其套用於高性能集群計算中,GPU集群中的每個節點都配有GPU,適用於並行加速計算,並且很容易從已有CPU集群通過升級硬體獲得;而搭建GPU集群無疑能使大規模數據處理的效率得到極大的提高。如何利用GPU集群強大的計算潛力來加速處理大規模數據是此課題主要研究方向。此課題旨在研究如何保證大規模數據處理在GPU集群中的高效性和可靠性,為達到此研究目的,課題研究主要包括三個內容:第一個主要內容是為充分利用GPU集群的並行計算能力,在全面考慮數據傳輸次數、數據集大小以及網路頻寬等因素的基礎上,重點研究GPU集群架構大規模數據分配策略,其中主要包括GPU集群架構研究、大規模數據動態分配策略、以及大規模數據並行歸併研究;第二個主要內容是為更高效處理大規模數據,對GPU架構從控制結點到各計算結點,各個計算結點之間,從計算結點再到控制結點之間,進行更有效的數據之間的通信與協同運行,重點研究基於GPU架構的大規模數據並行運算通訊與編程模型研究,其中主要包括GPU架構並行運算通信與編程模型研究、GPU運算性能最佳化研究、以及GPU集群並行運算實驗;第三個研究內容是為解決處理核越多,系統出現錯誤機率越高的問題,保證大規模數據在GPU集群中處理的可靠性,對GPU集群架構動態容錯機制進行研究,其中主要包括GPU集群節點容錯機制模型的研究、GPU集群動態容錯調度機制的研究、以及GPU集群動態實時容錯調度實驗。課題研究過程中不僅對GPU集群架構的軟硬體結構有了深入的分析與理解,構建了大規模數據在GPU集群下的動態負載均衡模型,並且對GPU架構大規模數據並行運算編程模型的基礎原語進行了最佳化,通過實驗驗證了所設計的並行運算最佳化算法能更有效提高大規模數據並行處理的工作效率,除此之外,設計了適用於大規模數據高可靠性處理的動態實時容錯機制,並通過系統實驗驗證了此容錯機制能有效地進行GPU集群下大規模數據處理時故障的檢

相關詞條

熱門詞條

聯絡我們