《異構伺服器共享RAID的IO流互擾分析和數據排布最佳化研究》是依託華僑大學,由劉艷擔任項目負責人的青年科學基金項目。
基本介紹
- 中文名:異構伺服器共享RAID的IO流互擾分析和數據排布最佳化研究
- 項目類別:青年科學基金項目
- 項目負責人:劉艷
- 依託單位:華僑大學
項目摘要,結題摘要,
項目摘要
當今數量龐大的中小型IT企業中RAID存儲子系統往往被多個異構伺服器共享,對存儲資源的競爭,以及異構伺服器的IO流互相干擾引起的RAID磁碟磁頭頻繁尋道,導致共享RAID性能降低,違背了企業存儲共享的初衷。本項目提出基於對IO訪問的線上分析,結合數據動態重排,實施最佳化的共享RAID數據排布方案來解決該問題:在共享RAID的物理存儲空間劃分一個快取區,用於為每個伺服器配置一個子RAID;再通過線上的IO訪問特徵分析,基於對單個磁碟順序訪問的數據塊最大化或對多個陣列磁碟並行訪問的磁碟數目最大化原則,確定子RAID結構,並選擇最佳數據集從大磁碟陣列動態重排到子RAID,使各子RAID始終對相應伺服器呈現專有邏輯高速快取的功能,從而隔離異構伺服器IO流互擾,提高存儲系統IO吞吐率。課題研究成果能讓共享RAID為異構伺服器提供最佳化、均衡的存儲服務,實現真正的企業RAID存儲共享。
結題摘要
當今IT企業中的伺服器往往是異構的,且套用的多樣性也會導致IO流特徵的差異,異構伺服器和不同套用在共享分散式存儲系統時對存儲資源的競爭,以及IO流互相干擾可導致存儲系統性能降低,違背了存儲共享的初衷。雖然分散式檔案系統(DFS,Distributed File System)的默認數據策略能為數據存儲及集群計算功能提供支撐,並且具有安全性和節點選擇簡單等優點,但其框架並沒有重視現實集群中幾個重要特徵:節點異構性、套用環境多樣化、數據檔案訪問規律性、節點變動等特徵。本項目基於對IO訪問的線上分析,結合數據動態重排,實施最佳化的分散式存儲系統數據排布方案來解決該問題:1、以套用為導向,將數據劃分為計算型數據和存儲型數據兩類,並分別為不同數據類型提供不同的放置策略。最佳化的數據放置策略在為計算型數據選擇存儲節點時,以節點數據訪問負載與節點性能相適應為原則,旨在增加數據計算的“本地化”,即計算節點從本地獲得所需計算數據,減少網路傳輸,提高集群計算效率。針對存儲型數據回響用戶讀寫訪問為其主要存儲目的的特點,最佳化的數據放置策略以負載均衡為目標,選擇綜合負載較小的節點作為數據的存儲節點。2、分散式存儲系統中默認數據副本的寫入採用管道方式,第一個存儲節點寫入失敗將導致數據副本在其餘節點均存儲失敗,為了避免這種情況,最佳化的數據策略在為數據選擇了最優的存儲節點之後,提出基於數據節點可靠性的寫入次序最佳化方案,最大化副本寫入的成功率。3、對零訪問數據進行分布調整以平衡節點存儲空間。本項目搭建了基於Hadoop的真實集群環境對本項目提出的最佳化數據策略進行對比和驗證,結果表明與HDFS默認數據副本策略相比,最佳化的計算型數據放置策略能夠有效提高MapReduce工作時的Map任務本地化比例,進而縮短MapReduce程式的完成時間,並在集群節點出現變動時具有更好的穩定性和恢復能力。最佳化的存儲型數據放置策略能在一定程度上避開繁忙節點,並有目的性地引導副本向性能較優節點進行存儲,使集群負載更加均衡,最終縮短存儲型數據的寫入時間,提高存儲效率。課題研究成果能讓分散式存儲系統為異構伺服器以及不同類型的套用提供最佳化、均衡的存儲服務,並適應系統對於節點變動,實現真正的多異構伺服器、多套用存儲共享。