雲環境下面向大數據並行計算的工作流執行最佳化研究

《雲環境下面向大數據並行計算的工作流執行最佳化研究》是依託東南大學,由宋愛波擔任項目負責人的面上項目。

基本介紹

  • 中文名:雲環境下面向大數據並行計算的工作流執行最佳化研究
  • 項目類別:面上項目
  • 項目負責人:宋愛波
  • 依託單位:東南大學
中文摘要,結題摘要,

中文摘要

目前,針對大數據並行處理的雲計算系統分為三層,分散式檔案系統、數據並行作業執行引擎和編程接口,編程接口負責將複雜套用解析成工作流交由數據並行作業執行引擎處理。然而,當前的雲計算系統不支持工作流的調度機制,不能保證用戶作業執行的優先權;子任務指派過程也沒有考慮工作流作業執行的時間約束,過分追求數據本地性影響了作業的執行性能;沒有對工作流作業的中間計算結果進行有效管理,增加了中間結果訪問的I/O開銷。針對以上問題,本項目以最佳化雲環境下面向大數據並行計算的工作流執行為目標,改進現有的系統架構,引進工作流作業調度,保證多數據輸出的用戶作業優先權;引入中間數據管理,研究基於記憶體的高效中間計算結果存儲管理機制,減少後繼作業讀取中間結果的I/O開銷;研究與工作流作業調度和中間結果數據存儲相匹配的並行子任務指派方法,保證工作流作業的順利執行。在此基礎上,實現雲計算工作流調度系統,驗證本項目提出的相關理論。

結題摘要

主要針對雲計算系統三層架構分散式檔案系統、數據並行作業執行引擎和編程接口對大數據並行處理的性能影響問題,進行了深入研究,給出了性能提升改進的相關方法和模型。針對SQL查詢到MapReduce作業流翻譯器自動生成的MapReduce作業流的執行效率很低問題,給出一種基於執行代價的類SQL查詢到MapReduce作業流的翻譯器。該翻譯器採用MapReduce作業的代價估算模型來選擇由自頂向下和自底向上兩種作業合併策略生成的MapReduce作業流中執行代價較小的,大大提高了MapReduce作業流的執行效率。基於分散式系統HDFS,設計了基於記憶體的HDFS系統架構,在對中間結果數據讀寫時,首先使用記憶體存儲資源,提高了數據中間結果數據的讀寫速率。在底層HDFS與Spark核心間設計了存儲中間層,實現了Spark SQL查詢作業間的共享數據,從而提高了Spark SQL作業的執行效率。針對Spark現有數據分區器無法有效解決Shuffle階段出現的數據傾斜所引發的Reducer負載不均衡問題,提出了一種新的數據分區器(DS-Partitioner),實現了Shuffle階段中間數據的均衡分配。

相關詞條

熱門詞條

聯絡我們