NVIDIA Triton推理伺服器

NVIDIA Triton推理伺服器

NVIDIA Triton 推理伺服器是NVIDIA發布的一款開源軟體,可簡化深度學習模型在生產環境中的部署。

藉助 Triton 推理伺服器,團隊可以通過任何框架,在任何基於 GPU 或 CPU 的基礎設施上從本地存儲、Google 雲端平台或 AWS S3 部署經過訓練的 AI 模型。可在單個 GPU 上同時運行多個模型,以更大限度地提高利用率,並可與 Kubernetes 集成以用於編排、指標和自動擴展。

基本介紹

  • 軟體名稱:NVIDIA Triton推理伺服器
  • 開發商:NVIDIA
產品簡介,產品特性,產品套用,

產品簡介

NVIDIA Triton推理伺服器可在單個 GPU 上同時運行多個模型,以更大限度地提高利用率,並可與 Kubernetes 集成以用於編排、指標和自動擴展。

產品特性

• 支持多種開源框架的部署,包括TensorFlow/PyTorch/ONNX Runtime/TensorRT 等,同時也支持用戶提供自定義的服務後端(backend);
• 支持多個模型同時運行在 GPU 上,以提高 GPU 設備的利用率;
• 支持 HTTP/gRPC 通信協定,提供二進制格式擴展來壓縮傳送請求大小;
• 支持 Dynamic Batching 功能,提升服務的吞吐;
• 支持兼容 KFServing 的 API 標準。

產品套用

Triton 支持在雲、數據中心、企業邊緣和嵌入式設備等環境中對 GPU 和CPU 進行 AI 推理,並與AWS、Google Cloud、MicrosoftAzure、阿里雲PAI-EAS 等平台集成。此外,NVIDIA AI Enterprise也集成了Triton。

相關詞條

熱門詞條

聯絡我們