Merlin HugeCTR

Merlin HugeCTRNVIDIA推出的推薦系統框架,是Merlin的重要組成部分,旨在利用多節點多 GPU 實現大規模分散式推薦模型的訓練和推理。Merlin HugeCTR支持多種神經網路比如 Deep Interest Network (DIN), NCF, Wide and Deep Learning (WDL), Deep Cross Network (DCN), DeepFM, and Deep Learning Recommendation Model (DLRM),同時也提供了方便易用的 Python API 方便用戶去自己定義需要的網路。

基本介紹

  • 外文名:Merlin HugeCTR
  • 隸屬企業:NVIDIA
簡介,工具包,

簡介

  • 模型並行 + 數據並行
Merlin HugeCTR推薦系統的模型通常由表徵用戶信息的 Embedding 部分和預測 ctr 的 Dense Model 部分組成。HugeCTR 結合數據並行和模型並行,將 Embedding 部分分布在多個 GPU 上,做模型並行,對於 Dense Model 部分,每個 GPU 上都保存完整的參數,做數據並行。通過結合數據並行和模型並行,HugeCTR 能夠支持大規模的推薦系統模型訓練,並能在 GPU 上加速。
  • 混合精度訓練
Merlin HugeCTR支持混合精度訓練以幫助改善和減少記憶體吞吐量占用。
  • Embedding Training Cache
Merlin HugeCTR中的模型大小受硬體資源的限制(GPU 顯存大小)。ETC 可以通過數據預處理,避免在 GPU 上同時處理所有的 embedding 數據,因此能夠使得 HugeCTR 支持超過 GPU 顯存大小的 embedding 訓練。
  • ONNX support
ONNX(Open Neural Network Exchange) 是一種針對機器學習設計的開放式檔案格式,用於存儲模型模型。它使得不同的 Deep Learning Framework 能夠採用相同格式存儲模型並互動。HugeCTR 支持將 HugeCTR 的模型轉換為 onnx 格式,這樣用戶可以在 HugeCTR 中訓練模型並轉換為 onnx 格式用於其他用途。

工具包

  • SOK
HugeCTR 能夠高效地利用 GPU 來進行推薦系統的訓練,為了使它還能直接被其他 DL 用戶,比如 TensorFlow 所直接使用,我們開發了 SparseOperationKit (SOK),來將 HugeCTR 中的高級特性封裝為 TensorFlow 可直接調用的形式,從而幫助用戶在 TensorFlow 中直接使用 HugeCTR 中的高級特性來加速他們的推薦系統。
  • HPS
HugeCTR Hierarchical Parameter Server(HPS) 讓HugeCTR能夠對超大模型進行推理。HPS利用分布在多節點的多種不同的存儲介質來突破GPU存儲空間的限制,以完整存儲下整個模型並保證推理的高吞吐與低延遲。

相關詞條

熱門詞條

聯絡我們