面向高性能雲平台的並行程式最佳化關鍵技術研究

《面向高性能雲平台的並行程式最佳化關鍵技術研究》是依託清華大學,由翟季冬擔任項目負責人的面上項目。

基本介紹

  • 中文名:面向高性能雲平台的並行程式最佳化關鍵技術研究
  • 依託單位:清華大學
  • 項目負責人:翟季冬
  • 項目類別:面上項目
項目摘要,結題摘要,

項目摘要

隨著雲計算的發展以及面向並行計算領域最佳化的高性能雲平台的出現,越來越多的用戶開始在高性能雲平台上運行各種科學計算程式。但是,複雜的雲平台計價模型、靈活的雲資源配置模式、非定製的通信網路以及顯著的系統噪音等因素給高性能雲平台上運行大規模並行程式帶來新的挑戰。.針對上述問題,本項目研究工作包括:首先,提出面向高性能雲平台的半彈性虛擬集群計算模型。通過聚合大量用戶的作業請求,實現統一的雲資源調度和管理,並根據作業規模動態調整虛擬集群大小,降低用戶使用成本並提高作業運行效率。其次,提出基於學習排序的方法實現自動預測給定並行程式的最優雲配置方案。針對雲平台資源配置組合空間爆炸的問題,提出基於PB矩陣的統計方法對高維參數空間進行降維。最後,針對高性能雲平台的特點,提出採用靜態分析的技術實現並行程式的通信自動隱藏,以及基於性能斷言的技術線上檢測雲平台上存在的系統噪音,提高並行程式的性能和可擴展性。

結題摘要

隨著雲計算的發展以及面向並行計算領域最佳化的高性能雲平台的出現,越來越多的用戶開始在高性能雲平台上運行各種科學計算程式。但是,複雜的雲平台計價模型、靈活的雲資源配置模式、非定製的通信網路以及顯著的系統噪音等因素給高性能雲平台上運行大規模並行程式帶來新的挑戰。 針對上述挑戰,本項目研究以下內容: 第一,對最新的Amazon的高性能雲平台進行了大量的測試,並與本地集群系統進行了對比分析。通過分析,我們發現對於含有大量小訊息傳輸的並行程式,在當前的雲平台上具有較差的可擴展性。對於含有大訊息傳輸的並行程式,在當前的雲平台上,表現了更好的可擴展性。第二,實現了基於學習排序的方法自動預測給定並行程式的最優雲配置方案。針對雲平台資源配置組合空間爆炸的問題,提出基於PB矩陣的統計方法對高維參數空間進行降維。實驗結果表明,本方法可以處理不同領域、存儲需求的應用程式,針對性能和花費,都能獲得最優或者近似最優的配置。第三,實現了面向高性能雲平台的半彈性虛擬集群計算模型。通過聚合大量用戶的作業請求,實現統一的雲資源調度和管理,並根據作業規模動態調整虛擬集群大小,降低用戶使用成本並提高作業運行效率。實驗結果表明,提出的方法可以比用戶單獨在雲平台上提交作業,平均降低60%的成本,而且不影響用戶的等待時間。第四,實現了基於靜動態結合的系統性能噪音線上檢測工具,對高性能計算機上的大規模並行應用程式具有適用性。實驗結果表明,我們的方法在16384進程上,引入的性能開銷小於4%。第五,本項目共發表17篇學術論文,其中有8篇發表在CCF A類會議或期刊上;申請或授權專利5項。

相關詞條

熱門詞條

聯絡我們