《GPU通用計算系統檢查點方法研究》是依託湖南大學,由陳浩擔任項目負責人的面上項目。
基本介紹
- 中文名:GPU通用計算系統檢查點方法研究
- 項目類別:面上項目
- 項目負責人:陳浩
- 依託單位:湖南大學
中文摘要,結題摘要,
中文摘要
本項目以GPU圖形處理器在通用計算系統中的套用為背景,以提高GPU通用計算系統的可靠性為切入點,探索GPU程式高效檢查點技術的實現方法與理論基礎,使之滿足GPU通用計算系統在高性能計算和超級計算中的理論和套用需要。以魯棒性、高性能、透明性、靈活性為設計原則,將傳統CPU檢查點技術與GPU的體系結構特徵結合起來,系統性地研究GPU核內檢查點機制中的主要過程和關鍵問題,將增量存儲、代碼靜態分析等技術融入到GPU核內狀態的讀取、保存和恢復過程中;對GPU硬體狀態進行分析和建模,提取主要的特徵參數,基於現有GPU通用計算軟體開發框架,分析GPU程式內部語義,構建用戶透明的檢查點技術;研究GPU檢查點技術在不同套用場景的套用,如虛擬機環境中的GPU計算任務線上遷移、GPU程式調試支持和自動錯誤診斷。
結題摘要
本項目以GPU圖形處理器在通用計算系統中的套用為背景,以提高GPU通用計算系統的可靠性為切入點,探索GPU檢查點技術的實現方法,使GPU滿足在高性能計算系統中的特定需求。 以GPU檢查點技術為目標,研究內容包括:1. GPU核內檢查點實現方法,具體來講,研究了GPU執行緒塊調度機制,GPU塊間和塊內執行狀態的表示方法、讀寫方式,並以此為基礎實現GPU核間和核內檢查點方案;2. 為深入了解GPU程式的容錯機制,研究了GPU程式中存在的與動態記憶體管理相關的錯誤,特別地,分析了並發GPU程式可能產生的堆疊溢出、整數溢出、結構體指針覆蓋等問題;3. 為考察GPU檢查點技術在虛擬化系統中的套用,比如虛擬機中GPU套用的線上遷移,研究了虛擬機域間快速通信機制,以及跟IO相關的虛擬機調度算法;4. 檢查點技術需要保存的數據量巨大,為節省存儲和時間開銷,研究了基於GPU的數據去冗餘算法和分散式數據去冗餘方法。另外,研究了基於雲存儲的檔案系統,探索如何高效利用雲存儲來保存不同類型的用戶數據;5. 為深入分析真實GPU應用程式的運行特徵,研究了基於GPU的圖計算系統最佳化方法。另外,實現了基於角色編程模型的圖計算系統,並實現了一種輕量級檢查點容錯機制。 在國際期刊和會議上發表論文11篇,其中5篇屬於中國計算機協會(CCF)推薦的A類期刊論文,1篇CCF B類期刊論文,2篇CCF B類會議論文,1篇CCF C類會議論文。項目組開發了7個相關係統,其中基於GPU的Rabin指紋算法實現、基於角色編程模型的圖計算系統、GPU動態記憶體溢出測試三個系統的原始碼已經對外開放,其他系統也通過各種形式共享,這種開放共享的形式有助於提高研究成果的學術和社會影響力。 從個體看,本項目的研究成果有較突出的原創性,比如核內檢查點方法、並發GPU套用潛在記憶體溢出問題、性能高達40Gbps的GPU數據去冗餘算法、基於角色編程模型的圖計算;從整體看,研究成果對增強高性能計算系統可靠性、降低系統存儲代價、提高虛擬機性能、探索異構系統圖計算編程模型等方面,都有現實的科學意義。