《面向大規模高性能計算的低開銷回卷恢復容錯技術》是依託湖南大學,由楊金民擔任項目負責人的面上項目。
基本介紹
- 中文名:面向大規模高性能計算的低開銷回卷恢復容錯技術
- 項目類別:面上項目
- 項目負責人:楊金民
- 依託單位:湖南大學
中文摘要,結題摘要,
中文摘要
高性能計算系統通過擴大計算結點規模來提升性能,帶來了故障隨結點規模呈指數增長的可靠性問題,要求有與之相應的容錯支持。回卷恢復容錯技術基於時間冗餘來容錯,無須結點冗餘,適應了高性能計算的需求。但現有方法在設定進程檢查點時單一地採取映像方式保存狀態數據,故障恢復時以串列方式重演日誌訊息,其開銷隨系統規模增大而劇增。本項目研究進程檢查點和進程重生的非對等特徵,提出基於狀態區分的進程檢查點技術, 通過程式語義建模來解析進程狀態的構成,採用對象特徵值來置換其記憶體映像,以此減少檢查點數據量,降低檢查點開銷;研究進程前滾和進程正常執行的非等同特徵,提出基於並發重演的進程快速前滾技術,通過訊息作用域估算來判定訊息間的獨立性,採用結果日誌來解除訊息間的依賴關係,以此提升訊息重演的並發性,降低故障恢復開銷。實現基於以上技術的容錯支持庫,解決開銷隨系統規模增大而劇增問題,為大規模高性能計算提供低開銷的容錯支持。
結題摘要
高性能計算系統通過擴大計算結點規模來提升性能,帶來了故障隨結點規模呈指數增長的可靠性問題,要求有與之相應的容錯支持。回卷恢復容錯技術基於時間冗餘來容錯,無須結點冗餘,適應了高性能計算的需求。但現有方法在設定進程檢查點時單一地採取映像方式保存狀態數據,故障恢復時以串列方式重演日誌訊息,其開銷隨系統規模增大而劇增。本項目研究進程檢查點和進程重生的非對等特徵,提出了基於狀態區分的進程檢查點技術, 通過程式語義建模來解析進程狀態的構成,採用特徵值提取來置換進程環境的記憶體映像,以此減少檢查點數據量,降低檢查點開銷;基於進程前滾和進程正常執行的非等同特徵,提出了基於並發重演的進程快速前滾技術,通過訊息作用域估算來判定訊息間的獨立性,採用結果日誌來解除訊息間的依賴關係,以此提升訊息重演的並發性,降低故障恢復開銷。以上技術對緩解容錯開銷隨系統規模增大而劇增問題具有理論參考價值和實用價值,有助於降低大規模高性能計算容錯開銷。在理論研究的基礎上,對事物處理類套用,OpenMP程式,以及頻繁項集挖掘算法,線性方程組疊代求解等工程算法,分別探究了其數據演變特性,將其套用到回卷恢復容錯開銷的最佳化中,得出了這類套用的容錯開銷最佳化實現框架。研究成果已經套用於湖南移動計費系統的異常發現與定位,取得了很好的套用效果。