NVIDIA DGX SuperPOD

NVIDIA DGX SuperPOD是NVIDIA 於2024 年3月GTC大會上發布了基於全新Blackwell 架構的新一代 AI 超級計算機。NVIDIA DGX SuperPOD 可基於NVIDIA DGX GB200 系統或 NVIDIA DGX B200 系統構建而成。

產品配置,軟體和服務,

產品配置

  • 採用 DGX GB200 系統構建而成的 NVIDIA DGX SuperPOD
搭載 NVIDIA GB200 Grace Blackwell 超級晶片的 NVIDIA DGX SuperPOD, 是一台完整的數據中心級 AI 超級計算機,可用於處理萬億參數模型,能夠保證超大規模生成式 AI 訓練和推理工作負載的持續運行。
採用新型高效液冷機架級擴展架構,基於 NVIDIA DGX™ GB200 系統構建而成,在 FP4 精度下可提供 11.5 exaflops 的 AI 超級計算性能和 240 TB 的快速顯存,且可通過增加機架來擴展性能。
每個 DGX GB200 系統搭載 36 個 NVIDIA GB200 超級晶片,共包含 36 個 NVIDIA Grace CPU 和 72 個 NVIDIA Blackwell GPU。這些超級晶片通過第五代 NVIDIA NVLink 連線成一台超級計算機。與 NVIDIA H100 Tensor Core GPU 相比,GB200 超級晶片在大語言模型推理工作負載方面的性能提升高達 30 倍。
Grace Blackwell 架構的 DGX SuperPOD 由 8 個或以上的 DGX GB200 系統構建而成,這些系統通過 NVIDIA Quantum InfiniBand 網路連線,可擴展到數萬個 GB200 超級晶片。用戶可通過 NVLink 連線 8 個 DGX GB200 系統中的 576 塊 Blackwell GPU,從而獲得海量共享顯存空間,來賦能下一代 AI 模型。
技術優勢
  1. 面向生成式 AI 時代的全新機架級擴展的 DGX SuperPOD 架構。全新 DGX SuperPOD 採用了統一的計算網路,包括第五代 NVIDIA NVLink 網路、NVIDIA BlueField®-3 DPU、NVIDIA Quantum-X800 InfiniBand 網路。這個架構可為計算平台中的每塊 GPU 提供高達每秒 1800 GB 的頻寬。此外,第四代 NVIDIA 可擴展分層聚合和規約協定(SHARP)™技術可提供 14.4 teraflops 的網路計算能力,網路計算能力與上一代產品相比提高了 4 倍。
  2. 統包式架構搭配先進的軟體,可實現前所未有的正常運行時間。全新 DGX SuperPOD 是一台完整的數據中心級 AI 超級計算機,在與 NVIDIA 認證合作夥伴提供的高性能存儲集成後,能夠滿足生成式 AI 工作負載的需求。每台超級計算機都在出廠前完成了搭建、布線和測試,從而大大加快了在用戶數據中心的部署速度。具有智慧型預測管理功能,能夠持續監控軟硬體中的數千個數據點,通過預測並攔截導致停機和低效的根源以節省時間、能耗和計算成本。
  • 採用 NVIDIA DGX B200 構建 的 NVIDIA DGX SuperPOD
NVIDIA DGX B200 是一款統一用於 AI 模型訓練、微調和推理的通用 AI 超級計算平台。
用戶還可以使用 DGX B200 系統構建 DGX SuperPOD,打造能夠幫助大型開發團隊運行多種不同作業的 AI 卓越中心。
採用風冷傳統機架式設計的 DGX 已被全球各行各業數千家企業廣泛採用,DGX B200 是 DGX 系列的第六代產品。採用 Blackwell 架構的全新 DGX B200 系統包含 8 個 NVIDIA B200 Tensor Core GPU 和 2 個第五代英特爾®至強®處理器。
DGX B200 系統包含帶有 8 個 NVIDIA ConnectX™-7 網卡和 2 個 BlueField-3 DPU 的高性能網路,每個連線的頻寬高達 400 Gb/s,可通過 NVIDIA Quantum-2 InfiniBand 和 NVIDIA Spectrum™-X 乙太網網路平台支持更高的 AI 性能。
DGX B200 系統憑藉全新 Blackwell 架構中的 FP4 精度特性,可提供高達 144 petaflops 的 AI 性能、1.4TB 海量的 GPU 顯存和 64TB/s 的顯存頻寬,從而使得該系統的萬億參數模型實時推理速度比上一代產品提升了 15 倍。

軟體和服務

  • 所有 NVIDIA DGX 平台均包含用於企業級開發和部署的 NVIDIA AI Enterprise 軟體。DGX 用戶可以通過使用該軟體平台中的預訓練的 NVIDIA 基礎模型、框架、工具套件和全新 NVIDIA NIM 微服務來加速他們的工作。
  • NVIDIA DGX 專家與部分獲得 NVIDIA DGX 平台支持認證的合作夥伴將在每個部署環節為用戶提供幫助,以便其迅速實現 AI 投產。在系統投入運行後,DGX 專家還將繼續協助用戶最佳化其 AI 管線和基礎設施。

相關詞條

熱門詞條

聯絡我們