容錯並行程式設計模型的研究與實現

《容錯並行程式設計模型的研究與實現》是依託北京理工大學,由王一拙擔任項目負責人的青年科學基金項目。

基本介紹

  • 中文名:容錯並行程式設計模型的研究與實現
  • 依託單位:北京理工大學
  • 項目負責人:王一拙
  • 項目類別:青年科學基金項目
項目摘要,結題摘要,

項目摘要

本課題在計算機體系結構並行化的發展趨勢和日益突出的容錯需求兩方面背景下提出,研究支持容錯的並行程式設計模型。該模型以任務為基本單元進行調度、執行、錯誤檢測和恢復,通過充分發掘並行性提高系統性能和降低容錯開銷。主要研究內容包括:1、任務粒度的錯誤檢測和恢復機制,擬採用一種Buffer-Commit的計算模型支持瞬時錯誤的容忍,採用套用級無盤檢查點實現永久錯誤的容忍,並研究對錯誤頻發的計算單元的棄用算法;2、分層可擴展的任務調度框架,對多核集群系統,節點內採用容錯的工作竊取調度策略,節點間採用工作竊取和工作共享相結合的自適應調度策略;3、任務劃分,針對不同並行模式研究不同的初始劃分方法,研究並行循環和分治套用在運行時的動態劃分策略,以獲得最佳的負載均衡,另外,對出錯任務研究一種動態分割算法。總之,本課題在並行程式設計中融入對錯誤容忍的支持,兼顧系統性能和可靠性兩個方面。

結題摘要

隨著並行計算機系統規模的擴大,可靠性問題越來越突出,容錯已成為軟硬體系統設計中的一個重要問題。本課題以提高並行計算機系統性能和可靠性為目標,在基於任務的並行程式設計模型中融入錯誤檢測和恢復機制,系統的研究支持容錯的任務並行編程模型。課題組成員在為期三年的研究中取得了如下重要研究成果:1、提出了一個輕量級的Buffer-Commit計算模型來保證程式遇到錯誤時重新執行的正確性,在共享存儲多核平台上,我們用一組並行循環測試程式檢驗了我們的技術;2、結合工作竊取和工作共享這兩種動態任務調度策略,針對多核集群平台提出了一種自適應的層次化任務調度策略,該策略採用層次化的調度框架,在完成初始的靜態任務分配後,任務首先在節點內動態調度以達到節點內各處理核之間的負載均衡,其次在節點間以工作共享或工作竊取的方式適時遷移,以平衡各計算節點的任務量;3、提出了容錯工作竊取任務調度算法,採用雙任務佇列保存待執行任務和出錯任務,充分發掘任務並行性來降低容錯帶來的任務冗餘執行的開銷;4、局域性是影響並行程式性能的一個重要因素,對此我們提出了訪存敏感的任務映射策略,根據任務的訪存特徵選擇不同映射算法,儘量將數據訪問量大的任務映射到共享存儲器周圍,從而降低系統整體通信開銷;5、整合上述技術,我們提出了支持容錯的任務並行程式設計模型FT-TPP,實現了其運行時系統,實驗表明FT-TPP相比其它容錯技術有較低的性能開銷。本課題的研究成果對並行編程模型的設計有重要的理論意義,對大規模系統可靠性的提高有一定的參考價值,在航空、航天等對系統可靠性要求較高的領域有潛在的套用價值。

相關詞條

熱門詞條

聯絡我們