Map/Reduce數據處理平台中記憶體級數據快取技術研究

Map/Reduce數據處理平台中記憶體級數據快取技術研究

《Map/Reduce數據處理平台中記憶體級數據快取技術研究》是依託北京工業大學,由梁毅擔任項目負責人的青年科學基金項目。

基本介紹

  • 中文名:Map/Reduce數據處理平台中記憶體級數據快取技術研究
  • 項目類別:青年科學基金項目
  • 項目負責人:梁毅
  • 依託單位:北京工業大學
項目摘要,結題摘要,

項目摘要

Map/Reduce數據處理平台是數據中心海量數據處理領域的最新技術進展。降低套用運行時海量數據讀取開銷,提高套用執行效率,是確保Map/Reduce平台服務質量的關鍵。記憶體級數據快取技術是數據中心提升數據訪問效率的一類典型技術。然而,既有的數據快取研究成果難以適應Map/Reduce平台數據基於計算節點分布存儲以及數據本地化處理的新特徵,而針對Map/Reduce平台的數據快取研究尚屬空白。本項目擬發展面向Map/Reduce數據處理平台的記憶體級數據快取技術;以提升套用執行效率為目標,針對Map/Reduce平台新的數據存儲與處理模式,著重對數據訪問特徵分析方法、數據預取與替換、數據重放置以及快取感知的Map/Reduce任務調度等關鍵技術展開研究,並通過原型系統對研究成果進行分析和驗證,為在Map/Reduce平台引入記憶體級數據快取提供切實可行的理論基礎和技術方案。

結題摘要

本項目的研究目標是發展面向Map/Reduce型數據處理平台的記憶體級數據快取技術。本項目對研究計畫中確定的關鍵技術均開展了研究。針對Map/Reduce 平台新的數據存儲與處理模式,本項目共取得四個有代表性的研究成果。 本項目對大數據套用負載的數據訪問和系統行為特徵進行了系統的量化分析,通過分析發現了大數據負載普遍計算密度較低,是具有更多分支指令的數據移動為主的計算;通過量化分析軟體棧對大數據系統行為的影響,發現基於Hadoop的Map/Reduce套用比傳統計算負載具有更大的指令足跡,並得出大規模數據移動速度對於大數據套用性能具有重要影響的結論,從而驗證了Map/Reduce平台引入記憶體級數據快取的必要性。 本項目提出綜合考慮快取數據本地化訪問比例、數據所在節點的計算負載以及數據訪問熱度的快取數據替換策略,在保證快取命中的前提下,通過提升快取數據的本地化處理幾率,切實提升Map/Reduce平台套用的執行效率。該研究成果可將Map/Reduce作業平均周轉時間最大減少19.4%。 本項目提出Map/Reduce平台基於預測的動態記憶體管理技術,通過線上擬合的方法預測Map/Reduce任務記憶體使用量;並提出了基於任務運行時間、任務進度和作業進度比較的任務資源搶占策略,以保證運行任務的性能和資源再分配的公平性。該研究成果可將Map/Reduce作業平均周轉時間最大減少57.1%。 本項目提出Reduce任務可搶占式作業調度方法。該方法通過定義Reduce任務資源搶占-回收模型和搶占感知的任務調度策略,有效利用Reduce任務空閒等待期間占用的計算資源,提升作業執行效率。該研究成果可將作業平均周轉時間最大減少49.85%。 本項目總計發表EI/SCI索引學術論文6篇,申請國內發明專利4項,並培養1名博士和3名碩士,完成了項目的預期成果目標。其中,一篇論文在計算機體系結構領域CCF A類會議HPCA發表,相關成果已在知名大數據企業中進行套用推廣。項目研究成果對於提升數據中心大數據服務質量具有較好的理論意義和實用價值。

相關詞條

熱門詞條

聯絡我們