《基於線上機器學習的超級計算機主動容錯技術研究》是依託中國人民解放軍國防科技大學,由蔣艷凰擔任項目負責人的面上項目。
基本介紹
- 中文名:基於線上機器學習的超級計算機主動容錯技術研究
- 項目類別:面上項目
- 項目負責人:蔣艷凰
- 依託單位:中國人民解放軍國防科技大學
中文摘要,結題摘要,
中文摘要
超級計算機正由當前的P級計算向E級計算邁進,專家預計E級計算系統的平均無故障時間僅有幾十分鐘,採用傳統的被動容錯方法因容錯開銷太大,將無法滿足未來E級計算系統可用性的需求。主動容錯利用故障預測技術提前對可能的故障進行處理,是提高系統可用性的重要途徑。針對未來超級計算機系統面臨的可靠性問題,本項目提出主被動容錯相結合的容錯策略,故障預測是該容錯策略的關鍵。通過對各結點狀態的實時獲取與線上挖掘,獲取各種故障的發生規律,然後利用學習的結果對系統故障進行預測,並對即將發生的故障實施低開銷的主動容錯,從而提高超級計算機的可用性。主要研究內容包括:故障線上學習與預測模型、系統狀態數據的獲取與預處理、故障線上學習方法、故障實時預測策略、故障規則獲取技術、主動容錯方法等。項目研究的目標是提高超級計算機的故障線上預測能力,降低系統容錯開銷,保證大規模並行套用的高效持續運行。
結題摘要
超級計算機正由當前的 P 級計算向 E 級計算邁進,專家預計 E 級計算系統的平均無故障時間僅有幾十分鐘,採用傳統的被動容錯方法因容錯開銷太大,將無法滿足未來 E級計算系統可用性的需求。本課題提出主被動容錯相結合的容錯策略,並對超級計算機故障線上學習和預測模型、系統狀態數據獲取、系統狀態數據的精簡與特徵提取;故障規律的線上學習與實時預測;主被動容錯方法的研究與性能分析等關鍵技術進行研究。實驗結果表明,課題組所研究的基於線上學習的故障預測技術對故障預測的準確率在80%以上,能夠預測到絕大部分即將發生的故障。因此,將低開銷的主動容錯與傳統的被動容錯相結合,能夠大大增加系統級檢查點的間隔時間,從而降低容錯的開銷,提高系統的可用性。本課題四年研究期間,課題組提出了多種高效的算法,包括具有好的預測性能的線上學習算法,如:MAE、UMAE、GAE等,實現特定功能的高效算法,如FPDC, D-Tran, mCRC等。此外,課題組還自主研發了開源的機器學習算法庫LibEDM。基於上述研究,課題組已經發表論文15篇,其中4篇進入SCI檢索,11篇進入EI檢索,已投稿正在審理中的論文2篇,申請專利一項。