大數據傳輸關鍵技術研究

《大數據傳輸關鍵技術研究》是依託清華大學,由姜進磊擔任項目負責人的面上項目。

基本介紹

  • 中文名:大數據傳輸關鍵技術研究
  • 依託單位:清華大學
  • 項目負責人:姜進磊
  • 項目類別:面上項目
項目摘要,結題摘要,

項目摘要

人類社會已步入了大數據時代,但作為大數據套用基礎的網路問題並沒有受到足夠的重視。本項目在軟體定義網路的基礎上,面向Hadoop、Spark、GraphLab等典型的大數據處理框架和套用模式,探究加速大數據傳輸性能的方法及其服務實現技術,具體的研究內容包括:(.1)分析典型大數據計算框架的通信特點,對實際場景中的套用日誌進行挖掘,發掘出常見的網路流量模式,作為數據傳輸最佳化的基礎。(.2)探究大規模網路資源的管理與分配方法,設計分散式的軟體定義網路控制器和計算感知的網路資源分配算法,提高網路資源管控的可擴展性,提升網路吞吐率。(.3)探究軟體定義網路和信息中心網路融合的方法,實現網路流的快取與預取,解決網路流的標識與檢索、快取位置的選取、快取與預取算法等難題。(.4)設計並實現用戶有好的、功能可擴展的大數據傳輸服務,集成所研發的各種關鍵技術以及其他傳輸最佳化措施,為高效大數據傳輸提供支持。

結題摘要

本項目面向下一代網際網路基礎設施以及新近出現的大數據計算模式和全景視頻套用,圍繞大數據載入與傳輸這一關鍵問題和需求,從基礎設施、算法和套用多個層面探究提升傳輸質量和計算性能的方法與技術。項目已經完成了全部研究內容,取得了豐碩的成果,共發表學術論文20餘篇,其中CCF A類論文9篇,B類論文5篇。項目的主要成果和關鍵數據說明如下:1. 在基礎設施層面,重點圍繞改善多核集群IO性能進而提升MapReduce處理性能以及改進RDMA的工作機制進而加速數據傳輸性能而展開工作,提出了mpCache,一種高效支持MapReduce在眾核集群上高可擴展性的基於SSD混合存儲系統,該系統不僅為IO密集型任務提供高IO速度同時也保證記憶體密集型任務的並行度,相比Hadoop平均可取得2.09倍的加速比,相比PACMan平均可取得1.79倍的加速比;提出了一種新型的RDMA設計模式——遠程獲取模式,該模式不僅支持傳統的RPC接口以及上層系統,而且具有更高的性能——相比伺服器回復模式性能提升1.6~3.1倍,相比伺服器旁路模式,性能可提升4倍。2. 在算法層面,針對MapReduce和圖計算,提出了針對MapReduce,可減少跨節點數據傳輸和平衡各節點負載的智慧型傾斜緩和以及資源調度方案Skew--,相比Hadoop YARN平均可取得1.98倍的加速比,相比SkewTune平均可取得1.65倍的加速比,在Reduce階段相比TopCluster平均可取得1.25倍的加速比;提出了針對分散式圖計算、可減少跨節點通信的三維圖數據劃分方案,相比PowerGraph計算效率提升高達7.3倍,相比PowerLyra提升高達4.7倍;提出了可減少磁碟IO總量的外存圖計算方法,在真實的圖數據集上,相比已有的系統,可取得高達數十倍甚至數千倍的性能加速比。3. 在套用層面,針對全景視頻套用,提出了基於網路時延的視場選擇和自適應視頻傳輸算法,有效地將視頻傳輸質量提升3倍;提出了支持全景視頻內容分發的多徑傳輸算法,相對於最優單徑策略可以將視頻傳輸比特率提升2倍以上,同時避免了冗餘數據傳輸;提出了了支持全景視頻流邊緣快取與預取的算法,與目前最新的基於視塊的快取策略相比,該方法在提高12.9%視頻傳輸質量的同時只需50%的視頻質量轉換頻率。

相關詞條

熱門詞條

聯絡我們