近數據處理技術

近數據處理技術是近年來提出的一種新型計算架構。在傳統的馮諾依曼架構中,存儲器中的數據需要搬移到記憶體中後CPU才能執行計算操作,對資料庫等數據密集型套用很不友好。因此近數據處理技術的核心思想是利用存儲器中的處理能力對數據進行簡單處理(例如資料庫的篩選操作)後只傳輸數據處理結果到主機中,節約了大量的系統資源,降低了時延和能耗。

基本介紹

技術背景,原理,軟體特點,

技術背景

大數據時代第一個對存儲有挑戰,第二個對數據處理也存在挑戰,存儲方面據統計增長率已經達到了36%,2018年全球的數據總量是33ZB,預計到2025年將達到175ZB。但是大量的數據實際上除了要存之外,更多的要做處理,比如說大數據的5V特徵——Volume(體量)、Velocity(速度)、Variety(多樣性)、Veracity(準確性)、Value(價值), 要求在大量的數據中間能夠找到有價值的數據或者說發現有價值的數據做處理。
處理和存儲之間實際上發展的是不平衡的,處理器核每兩年翻一倍,記憶體容量每三年才翻一倍。也就是說,每個核的記憶體容量每兩年是減少30%,它分配到的記憶體頻寬也大為減少,從而導致處理和存儲之間的差距越來越大。而存儲性能的提升非常有限,從1999年到2017年訪問延遲基本上沒有什麼變化,儘管頻寬提升了20倍,容量提升了128倍,這樣就導致處理和存儲之間的發展非常不平衡。從性能的角度來看,據分析大約50%處理器流水線中的停頓是由數據訪問造成的,有的是數據的衝突,有的是因為記憶體沒有命中,所以導致存儲流水停頓問題。這就是我們所有說的記憶體強的問題。還有一個功耗強的問題,據統計移動設備中瀏覽網頁41%的能量花費在數據訪問上,LOAD操作能耗約為ADD指令的115倍。因此,內耗強的問題也非常突出。
從快閃記憶體內部講,16個通道的快閃記憶體構成的SSD,理論上來講內部的數據的速率可以達到8.5GB/S,但是把它封裝成為SSD糟之後,就是SATA接口或者PCIe接口就達不到這么高的速度,就是2G/S的速度。如果是64個SSD理論上是可以達到545個GB/S的速度,但是掛載在PCIe的匯流排上,被Host來訪問的話16個通道的SSD變成了16GB/S的速度。
也就是說,設備內部速度理論上是非常高的,但是通過層層衰減,性能非常低了,這樣就導致了CPU訪問的時候差距非常大,怎么樣解決這個問題呢?分析一下就是由傳統的馮諾依曼體系結構限制了它。
傳統的馮諾依曼體系結構導致數據一定是要存儲里搬到計算里,然後算完之後再回去。但是能不能把處理推送到存儲中間去,充分發揮內部頻寬作用呢?這就是所謂的近數據處理技術。

原理

固態硬碟主要包括主機控制器、SSD控制器(主控)、快閃記憶體、快閃記憶體控制器和記憶體。與傳統固態硬碟相比,計算型存儲最大的改進在於存儲器具有了處理數據的能力。近數據處理系統的計算單元放置通常有3種方法:添加在主控晶片之外,作為主控的協處理器執行計算任務;放置在主控與快閃記憶體控制器之間,每個通道都具有計算能力,具有高並發性的優點;放置在主控內,包括主控內的硬體加速器以及基於嵌入式處理器執行計算任務。

軟體特點

與數據需要從存儲器搬移到計算單元的傳統計算架構相比,近數據處理架構將數據處理任務的一部分或者全部卸載到計算型存儲中,CPU給存儲器傳送計算請求後即可執行其他任務,存儲器在內部獲取數據並進行計算,只返回計算結果即可,減少大量數據傳輸。近數據處理系統主要有以下優點:
(1) 減少數據傳輸。如上文所述,存儲器只需要返回數據處理結果即可,視不同套用,可不同程度地減少數據傳輸;
(2) 減輕主機負擔。將計算任務下推到存儲器後主機可以利用原本用於數據傳輸和部分計算的系統資源執行其他任務,提高處理器的可利用率,降低主機負擔;
(3) 提高頻寬利用率。近數據處理系統通常提供了繞過傳統I/O棧的方法,能夠直接調用數據處理功能,避免了軟體棧的高昂開銷;
(4) 提高可擴展性。將處理任務分割、卸載到每個存儲器中可實現性能的線性擴展。在近數據處理架構下,可以做到只添加存儲器即可提升系統性能;
(5) 提高安全性。對不同套用授予不同的存儲訪問許可權,只返回所需的數據處理結果而不是所有數據可以降低安全風險;
(6) 降低能耗。由於存儲器內使用低功耗的嵌入式處理器,功耗與主機相比大幅降低。對於特定套用可以採用硬體加速器,進一步提高性能降低功耗。

相關詞條

熱門詞條

聯絡我們