面向MapReduce的網路存儲系統最佳化技術研究

面向MapReduce的網路存儲系統最佳化技術研究

《面向MapReduce的網路存儲系統最佳化技術研究》是依託電子科技大學,由薛瑞尼擔任醒目負責人的面上項目。

基本介紹

  • 中文名:面向MapReduce的網路存儲系統最佳化技術研究
  • 依託單位:電子科技大學
  • 項目類別:面上項目
  • 項目負責人:薛瑞尼
項目摘要,結題摘要,

項目摘要

雲計算為基礎的MapReduce編程模型是當前海量數據處理的重要的方法,提高MapReduce存儲系統的擴展性、可靠性、存儲效率和數據訪問性能是實際套用的迫切需求,也是未來基於海量數據信息服務所面臨的挑戰。本項目以MapReduce的檔案訪問模式為依據,以海量數據的高效存儲和高並發訪問為目標,研究MapReduce存儲系統的最佳化技術,內容包括:1.旨在提高系統擴展性和可靠性的分散式元數據管理技術;2.旨在提高系統存儲效率的自適應檔案分塊技術;3.旨在提高數據訪問性能的數據預取技術。本課題通過解決MapReduce實際套用遇到的瓶頸,探索常規分散式存儲系統和MapReduce存儲系統融合的框架和方法,為更深層次的、更複雜的存儲系統最佳化提供新的理論和支撐工具。

結題摘要

Hadoop是MapReduce的主要實現,HDFS作為Hadoop的存儲框架已經被廣泛地套用到科研和生產系統中,但HDFS原生系統架構導致其可靠性、擴展性、存儲效率和訪問性能上仍然存在不足。 本課題針對HDFS元數據管理、存儲空間管理和數據獲取技術進行了研究:提出了面向套用的多一致性分散式元數據管理系統,提出了基於NoSQL的元數據管理機制,提出了融合糾刪碼和副本機制的存儲方法,提出了基於圖匹配的提高數據本地化任務調度策略。 面向套用的元數據管理方法包括兩方面創新:一方面將套用劃分為獨立錯誤域,執行過程中的臨時性故障並不會導致整個系統失效,實現了元數據的持續服務;一方面針對不同數據訪問操作提供不同的一致性,並通過線上模型預測訪問失效機率,通過異步機制通知套用對異常進行捕獲。通過實施布隆過濾器、基數樹等最佳化技術,實驗結果證明面向套用的元數據管理方式在不降低套用執行效率的前提下,可以極大提升元數據服務的可靠性和擴展性。 基於NoSQL的元數據管理技術將HDFS元數據映射為NoSQL資料庫模型,將對應元數據操作映射為NoSQL資料庫操作,保證對應用程式透明,提升了元數據服務的容錯性和擴展性。 糾刪碼和副本機制的有機融合實現了對冷熱數據的分類處理,既能夠保證熱數據的快速訪問,又能降低冷數據對存儲空間的占用率,且數據的可用性與副本機制相同。構建的判別模型可以動態劃分數據的冷度和熱度,保證隨著數據訪問特徵的變化,存儲方式能提供相應的支持。 基於圖匹配的任務調度方法可以在高開銷理論最佳調度和低開銷啟發式調度之間有效平衡,達到了線性複雜度,減少了任務執行過程中數據在網路中的傳輸量。實驗證明所提出的調度算法開銷小,實現了最少數據預取量。 上述研究對HDFS原生架構中諸多問題進行了改進,實現了元數據服務的集群化,提高了元數據服務的可靠性和擴展性,提高了存儲效率,降低了任務執行中的數據預取量。上述工作對應用程式透明,應用程式無需修改,即可直接運行,兼容性良好,對當前HDFS系統的最佳化有重要的指導意義。

相關詞條

熱門詞條

聯絡我們