NVIDIA Spectrum-X800平台

NVIDIA Spectrum-X800平台(英文名【NVIDIA Spectrum-X800 Platform】) NVIDIA推出的業界第一代800Gb/s的乙太網網路平台,包括了NVIDIA Spectrum SN5600 800Gb/s 乙太網交換機和NVIDIA BlueField-3 SuperNIC,為多租戶生成式AI雲和大型企業級用戶提供了各種至關重要的先進功能。

基本介紹

  • 中文名:NVIDIA Spectrum-X800平台
  • 外文名:NVIDIA Spectrum-X800 Platform 
簡介,發展歷史,核心結構,工作原理,性能優勢,套用領域,

簡介

大模型的發展推動了 AI 雲的爆發性增長,由於資金、經驗、時間、能耗等因素的影響,很多 AI 用戶選擇通過雲的方式解決算力問題。如何快速構建 AI 雲,在雲上提供高性能的算力資源,保障多用戶上雲和運行業務的安全性,避免多用戶運行多任務時的互相干擾導致業務性能降低,是當前 AI 雲提供商首要考慮的問題。NVIDIA Spectrum-X800 通過最佳化網路性能,加快 AI 工作負載的處理、分析和執行速度,進而縮短 AI 解決方案的開發、部署和上市時間。Spectrum-X800 專為多租戶環境打造,實現了每個租戶的 AI 工作負載的性能隔離,使業務性能能夠持續保持在最佳狀態,提升客戶滿意度和服務質量。

發展歷史

NVIDIA Spectrum-X800 平台的出現是生成式 AI 雲發展的必然趨勢,AI 雲的出現徹底顛覆了數據中心對於網路的需求。傳統的數據中心運行的任務多,但是單任務的算力需求不大,任務的耦合性不強,網路的性能對於業務的影響不大。但是大模型的出現,替代了大量的傳統任務,All In AI 成為了很多雲服務商和數據中心的追求目標,數據中心成為了運行少量的 AI 任務,但是每個 AI 任務的計算量都相當大,且每個計算單元之間的耦合性很強,網路決定了數據中心的性能。Spectrum-X800 平台是基於 NCCL 的全面 RoCE 端到端最佳化平台,涵蓋了對於 AI 訓練至關重要的動態路由(AR - Adaptive Routing)、可程式擁塞控制等技術和業務性能隔離技術等,可以充分發揮網路的通信效率,擺脫了乙太網難擴展的桎梏,保障了雲上任務的性能和安全性。

核心結構

交換機 + SuperNIC(超級網卡) + LinkX + DOCA軟體開發包 + NCCL集合通信庫

工作原理

Spectrum SN5600 800Gb/s可以支持51.2Tb/s的交換能力,提供穩定的超低網路轉發延遲,支持先進的硬體遙測技術,和BlueField-3 SuperNIC配合可實現端到端的高性能動態路由和擁塞控制技術,專門對於AI集合通信庫NCCL中的RDMA通信進行了最佳化,可以在兩層交換網路支持8,192卡的400Gb/s/GPU互連及三層網路交換就支持超過50萬卡的400Gb/s/GPU互連。

性能優勢

NVIDIA Spectrum-X800端到端解決方案可以實現全網95%的通信效率;在NCCL Allreduce通信性能上相較傳統乙太網提升了50%,消除了系統噪聲(Noise)對於Allreduce通信性能的影響;LLM訓練性能在2000卡的時候提升了40%,實現了在多租戶、多任務的環境下的業務性能隔離。

套用領域

生成式AI雲、企業級AI雲、數據處理、存儲

相關詞條

熱門詞條

聯絡我們