大數據網路

大數據應用程式需要處理大規模信息,而且在出於彈性的考慮將數據複製到多個位置時,信息的規模變得越來越大。但是,大數據的最重要屬性並不在於它的規模,而在於它將大作業分割成許多小作業的能力,它能夠將處理一個任務的資源分散到多個位置變為並行處理。

基本介紹

  • 中文名:大數據網路
關鍵因素
1.網路彈性與大數據應用程式
如果有一組分散式資源必須通過網際網路進行協調時,可用性就變得至關重要。如果網路出現故障,那么造成的後果是出現不連續的壞計算資源與數據集。
2.解決大數據套用中的網路擁塞問題
大數據應用程式不僅僅是規模大,而且還有一種我稱為突發性的特性。當一個作業啟動之後,數據就開始流轉。在高流量時間段里,擁塞是一個嚴重的問題。然而,擁塞可能引起更多的佇列延遲時間和丟包率。此外,擁塞還可能觸發重轉,這可能讓本身負載繁重的網路無法承受。因此,網路架構設計時應該儘可能減少擁塞點。按照可用性的設計標準,減少擁塞要求網路具有較高的路徑多樣性,這樣才能允許網路將流量分散到大量不同的路徑上。
3.大數據中網路一致性要比遲延性更重要
實際上,大多數大數據應用程式對網路延遲並不敏感。如果計算時間的數量級為幾秒鐘或幾分鐘,那么即使網路上出現較大延遲也是無所謂的——數量級大概為幾千毫秒。然而,大數據應用程式一般具有較高的同步性。這意味著作業是並行執行的,而各個作業之間較大的性能差異可能會引發應用程式的故障。因此,網路不僅要足夠高效,而且要在空間和時間上具有一致的性能。
4.現在就要準備大數據未來的可伸縮性
可能讓人有點意外的是,大多數大數據集群實際上並不大。
可伸縮性並不在於現在集群現在有多大規模,而是說如何平衡地擴展支持未來的部署規模。如果基礎架構設計現在只適合小規模部署,那么這個架構將如何隨著節點數量的增加而不斷進化?在將來某一個時刻,它是否需要完全重新設計架構?這個架構是否需要一些近程數據和數據位置信息?關鍵是要記住,可伸縮性並不在於絕對規模,而是更關注於實現足夠規模解決方案的路徑。
5.通過網路分割來處理大數據
網路分割是創建大數據環境的重要條件。在最簡單的形式上,分割可能意味著要將大數據流量與其他網路流量分離,這樣應用程式產生的突發流量才不會影響其他關鍵任務工作負載。除此之外,我們還需要處理運行多個作業的多個租戶,以滿足性能、合規性和/或審計的要求。這些工作要求在一些場合中實現網路負載的邏輯分離,一些場合則還要實現它們的物理分離。架構師需要同時在兩個方面上進行規劃,但是初始需求最好統一在一起。
6.大數據網路的套用感知能力
雖然大數據的概念與Hadoop部署關係密切,但是它已經成為集群環境的代名詞。根據不同應用程式的特點,這些集群環境的需求各不同相同。有一些可能對對頻寬要求高,而有一些則可能對延遲很敏感。總之,一個網路要支持多應用程式和多租戶,它就必須要能夠區分自己的工作負載,並且要能夠正確處理各個工作負載。

相關詞條

熱門詞條

聯絡我們