面向大數據備份的重複數據刪除關鍵技術研究

《面向大數據備份的重複數據刪除關鍵技術研究》是依託重慶大學,由譚玉娟擔任項目負責人的青年科學基金項目。

基本介紹

  • 中文名:面向大數據備份的重複數據刪除關鍵技術研究
  • 項目類別:青年科學基金項目
  • 項目負責人:譚玉娟
  • 依託單位:重慶大學
中文摘要,結題摘要,

中文摘要

在大數據時代,受大數據自身特點的影響,大數據備份呈現出新的特徵,包括備份方式的改變,大數據對實時備份和恢復性能要求的提高,大數據的數據類型和數據價值的多樣化以及備份服務等級的多樣化等,基於傳統數據備份的重複數據刪除方法受到了空前的挑戰。本項目擬研究多項適用於大數據備份的重複數據刪除關鍵技術,包括(1)基於語義感知的多粒度冗餘鑑別方法,根據語義環境進行多粒度的冗餘數據鑑別,提升重複數據刪除吞吐率,滿足大數據的高性能數據備份需求;(2)基於數據重複相關性的數據分布和放置策略,最佳化存儲節點內和節點間的數據布局,提升實時恢復性能,滿足大數據的高性能數據恢復需求;(3)數據冗餘度估算模型和自適應的多性能目標最佳化模型,在數據去重前估算基於數據類型的數據冗餘度,配置最佳化的數據去重方法,滿足大數據所需的多種數據備份服務等級需求。本項目擬通過對上述內容的研究,最終構建適用於大數據備份的重複數據刪除存儲系統。

結題摘要

在大數據時代,受大數據自身特點的影響,大數據備份呈現出新的特徵,包括備份方式的改變 ,大數據對實時備份和恢復性能要求的提高,大數據的數據類型和數據價值的多樣化以及備份服務等級的多樣化等,基於傳統數據備份的重複數據刪除方法受到了空前的挑戰。在項目執行期間,項目組成員研究多項適用於大數據備份的重複數據刪除關鍵技術,包括(1)研究適用於大數據存儲和雲存儲的基於數據類型的數據冗餘度鑑別方式,尤其是提出了針對壓縮檔案的數據冗餘度鑑別方法,解決了壓縮檔案主導的大數據和雲存儲備份中無法對壓縮檔案進行重複數據刪除的問題;(2)研究面向大數據備份的分散式重複數據刪除存儲系統的數據冗餘度鑑別方式,提出基於上下文語義感知的數據路由和冗餘度鑑別方法,避免了指紋查詢所需的計算和記憶體瓶頸,提升了分散式重複數據刪除存儲系統吞吐率;(3)研究基於數據重複性相關的數據分布和放置策略,提出了基於數據重複性相關的碎片解決方法,該方法以大小可變的數據組為碎片識別單位和數據存儲單元,能更加精確地識別和減少碎片,提升恢復性能,同時不犧牲重複刪除率;(4)針對現有重複數據刪除存儲系統僅針對數據備份系統中某一個或兩個性能指標進行最佳化的問題,研究多目標性能最佳化的重複數據刪除方法的研究,提出了基於多目標的性能分析框架。項目組通過對上述內容的研究,構建了適用於大數據備份的重複數據刪除存儲系統,並將上述關鍵技術點進行了實驗驗證和對比測試。與已有的相關方法相比,本項目組提出的上述方法針對大數據備份呈現出的新特徵,能更好地解決大數據備份所呈現的新問題,滿足大數據備份的需求。

相關詞條

熱門詞條

聯絡我們