面向百萬萬億次高性能計算系統的容錯計算模型研究

面向百萬萬億次高性能計算系統的容錯計算模型研究

《面向百萬萬億次高性能計算系統的容錯計算模型研究》是依託中國人民解放軍國防科技大學,由盧凱擔任項目負責人的面上項目。

基本介紹

  • 中文名:面向百萬萬億次高性能計算系統的容錯計算模型研究
  • 項目類別:面上項目
  • 項目負責人:盧凱
  • 依託單位:中國人民解放軍國防科技大學
中文摘要,結題摘要,

中文摘要

現有並行計算模型不具備容錯計算能力,需要藉助檢查點等外部容錯技術才能實現持續計算,性能開銷大,系統有效利用率低,無法滿足未來百萬萬億次高性能計算系統的運行需求。.本項目基於新型非易失存儲技術(NVRAM),面向未來百萬萬億次高性能計算容錯需求,研究新的具備容錯計算能力的並行計算模型。該模型改變了傳統並行計算模型中依賴作業系統提供套用運行環境的設計思想,採取了系統服務和運行環境相分離的運行模式。通過研究基於NVRAM的分類存儲模型和管理策略,設計新的上下文自包含的和支持原地恢復的非易失容錯進程模型,新容錯並行計算模型可以將用戶套用的完整運行狀態實時駐留在NVRAM中。並通過研究支持並行穩態運行的新型執行方式,支持用戶套用原地快速恢復和持續執行。容錯並行計算模型可有效克服傳統檢查點容錯技術性能開銷大,系統利用率低等問題,滿足未來百萬萬億次高性能計算的容錯需求。

結題摘要

本項目研究基於新型非易失存儲器件的進程穩態執行和容錯技術。項目已完成原定計畫,主要取得如下成果:(1)在系統軟體層面提出基於非易失存儲器件的存儲管理,並向上層套用提供針對非易失存儲器的動態記憶體分配接口,同時維護非易失存儲器的物理頁面分配及虛實映射的非易失性。和前人利用檔案系統管理非易失存儲器的工作相比,本項目提出的管理系統能有效減少管理開銷,提升性能。(2)提出事物化編程模型供上層套用對非易失數據進行一致性更新。在實現事物化系統時,有效利用了非易失存儲器讀快寫慢的特點,最佳化了非易失日誌結構,減少了對非易失存儲器的寫操作,提升了整體性能和非易失存儲器的使用壽命。(3)提出了基於非易失存儲器的細粒度增量式檢查點。利用動態記憶體分配器將對象分散在不同的虛擬頁面上,同時利用硬體提供的頁保護機制有效實現了細粒度的訪存監控,從而減少每次檢查點時的數據拷貝量,提升了性能。(4)提出了基於虛擬化硬體的細粒度訪存監控機制。利用新型虛擬化硬體提供的兩層地址映射,實現了細粒度的訪存監控,同時實現了在程式運行過程中動態調整監控粒度,有利於程式分析和容錯控制。(5)提出了新型容錯進程模型。在傳統硬體和運行進程中間加入一層中間軟體層。在中間軟體層上重新定義進程執行所需的全部資源,並將這些資源在非易失存儲器上重新組織。同時,為了實現對進程狀態的一致性更新,提出了版本號的思想,任何進程狀態都附有一個版本號。通過版本號可有效實現進程狀態的斷電恢復和一致性遷移。綜上,項目最終實現了一個整合作業系統,運行時,套用這三層的容錯原型系統。作業系統層面實現非易失存儲器件的管理,運行時層面提供易用接口支持,套用層面利用特殊編程接口進行編程。本課題共發表論文22篇,其中SCI期刊8篇,EI期刊或會議13篇,包括VEE、HPCC、PDP、Journal of Supercomputing等重要會議或期刊。培養博士生5人,碩士生2人。

相關詞條

熱門詞條

聯絡我們