技術特性:
Grace是高度專業化的處理器,工作負載面向例如訓練具有超過1萬億個參數的新一代NLP模型等。當與NVIDIA GPU緊密耦合時,搭載Grace CPU的系統速度比如今基於NVIDIA DGX打造的最先進的系統(在 x86 CPU 上運行)快10倍。
Grace的強大性能基於第四代 NVIDIA NVLink互聯技術,該技術在Grace和 NVIDIA GPU 之間提供創紀錄的 900 GB/s 連線速度,使總頻寬比當今領先的伺服器高 30 倍。
Grace將利用創新的LPDDR5x記憶體子系統,該子系統的頻寬是 DDR4 記憶體的兩倍,能效達 DDR4 的 10 倍。此外,新架構提供單一記憶體地址空間的快取一致性,將系統和 HBM GPU 記憶體相結合,以簡化可程式性。
Grace將獲得 NVIDIA HPC軟體開發套件以及全套 CUDA和 CUDA-X庫的支持,可以對 2,000 多個 GPU 應用程式加速,使得應對全球重大挑戰的科學家和研究人員探索速度更快。
套用:
NVIDIA Grace CPU 是超過10,000個工程年的成果,專為滿足全球最先進套用的計算要求而設計—— 這些套用包括自然語言處理、推薦系統、AI 超級計算 —— 其所進行的數據分析需要超高速計算性能和大容量記憶體。這款產品將高能效Arm CPU 核心與低功耗記憶體子系統相結合,以高能效提供高性能。
Grace CPU 超級晶片
NVIDIA 於2022年3月推出首款面向 AI 基礎設施和高性能計算的基於 Arm Neoverse的數據中心專屬 CPU——NVIDIA Grace CPU 超級晶片。它由兩個 CPU 晶片組成,它們之間通過NVLink®-C2C互連在一起。NVLink®-C2C 是一種新型的高速、低延遲、晶片到晶片的互連技術。
Grace CPU 超級晶片專為提供最高的性能而打造,能夠在單個插座(socket)中容納 144 個 Arm 核心,在 SPECrate®2017_int_base 基準測試中的模擬性能達到業界領先的 740 分。根據 NVIDIA 實驗室使用同類編譯器估算,這一結果較當前 DGX A100 搭載的雙 CPU 相比高 1.5 倍以上。
Grace CPU 超級晶片還提供業界領先的能效和記憶體頻寬,其依託帶有糾錯碼的LPDDR5x 記憶體組成的創新的記憶體子系統,可實現速度和功耗的最佳平衡。LPDDR5x 記憶體子系統提供兩倍於傳統DDR5設計的頻寬,可達到每秒1 TB ,同時功耗也大幅降低 ,CPU加記憶體整體功耗僅500瓦。
Grace CPU 超級晶片基於最新的數據中心架構 Arm®v9,具備最高的單執行緒核心性能,並支持 Arm 新一代矢量擴展,其將為諸多套用帶來直接收益。
Grace CPU 超級晶片可以運行所有的 NVIDIA 計算軟體棧,包括 NVIDIA RTX™、NVIDIA HPC、NVIDIA AI 和 Omniverse。Grace CPU 超級晶片結合 NVIDIA ConnectX®-7 網卡,能夠靈活地配置到伺服器中 —— 或作為獨立的純 CPU 系統,或作為 GPU 加速伺服器,搭載一塊、兩塊、四塊或八塊基於Hopper 的 GPU ,從而使客戶通過只維護一套軟體棧就能針對自身特定的工作負載做好性能最佳化。
NVIDIA Grace™ CPU 超級晶片專為 AI、HPC、雲計算和超大規模套用而設計。憑藉最高的性能、記憶體頻寬、能效及可配置性,Grace CPU 超級晶片在要求最為嚴苛的高性能計算、AI、數據分析、科學計算和超大規模計算套用方面將會脫穎而出。Grace CPU 超級晶片的 144 個核心和 1TB/s 的記憶體頻寬將為基於 CPU 的高性能計算套用提供前所未有的性能。HPC 套用為計算密集型,需要最高性能的核心、最高的記憶體頻寬以及最合適的每核心記憶體容量來加速產出。
NVIDIA Grace Hopper 超級晶片
NVIDIA Grace Hopper 超級晶片結合了 Grace 和 Hopper 架構,使用 NVIDIA NVLink -C2C 技術為加速 AI 和高性能計算 (HPC) 套用提供 CPU+GPU 一致性記憶體模型。
· CPU+GPU 的設計專為解決巨型 AI 和 HPC 挑戰
· 全新 900 GB/s 一致性接口,比 PCIe 5.0 快 7 倍
· 與 DGX A100 相比,GPU 的聚合系統顯存頻寬提高了 30 倍
· 可運行所有的 NVIDIA 軟體堆疊和平台,包括 NVIDIA HPC、NVIDIA AI 和 NVIDIA Omniverse。
性能突破
在真實工作負載測試中,NVIDIA Grace CPU 超級晶片在相同的功率範圍內運行主流數據中心 CPU 套用的性能比 X86 處理器提高了 2 倍。NVIDIA工程師在Grace上運行了真實的數據中心工作負載,在相同的功率下,相比數據中心現有的x86 CPU,Grace的優勢:
得益於三項創新,Grace CPU提供了高效性能。
1. 在一塊對分頻寬(一項吞吐量指標)為3.2 TB/s的裸晶片中使用一種超快的結構將72個Arm Neoverse V2核心連線在一起。
2. 使用NVIDIA NVLink-C2C互連技術在一個超級晶片封裝中連線其中的兩塊裸片,實現900GB/s的頻寬。
3. 是第一個使用伺服器級LPDDR5X記憶體的數據中心CPU。這幫助它在成本相仿的情況下增加了高達50%的記憶體頻寬,且功耗只有常規伺服器記憶體的八分之一。緊湊的尺寸使其密度比典型的卡式記憶體設計增加了2倍。
套用領域
2022年5月,美國洛斯阿拉莫斯國家實驗室宣布將在Venado中使用Grace。