NVIDIA Triton推理伺服器

NVIDIA Triton推理伺服器

NVIDIA Triton 推理伺服器是NVIDIA發布的一款開源軟體，可簡化深度學習模型在生產環境中的部署。

藉助 Triton 推理伺服器，團隊可以通過任何框架，在任何基於 GPU 或 CPU 的基礎設施上從本地存儲、Google 雲端平台或 AWS S3 部署經過訓練的 AI 模型。可在單個 GPU 上同時運行多個模型，以更大限度地提高利用率，並可與 Kubernetes 集成以用於編排、指標和自動擴展。

基本介紹

軟體名稱：NVIDIA Triton推理伺服器
開發商：NVIDIA

產品簡介,產品特性,產品套用,

產品簡介

NVIDIA Triton推理伺服器可在單個 GPU 上同時運行多個模型，以更大限度地提高利用率，並可與 Kubernetes 集成以用於編排、指標和自動擴展。

產品特性

• 支持多種開源框架的部署，包括TensorFlow/PyTorch/ONNX Runtime/TensorRT 等，同時也支持用戶提供自定義的服務後端(backend)；

• 支持多個模型同時運行在 GPU 上，以提高 GPU 設備的利用率；

• 支持 HTTP/gRPC 通信協定，提供二進制格式擴展來壓縮傳送請求大小；

• 支持 Dynamic Batching 功能，提升服務的吞吐；

• 支持兼容 KFServing 的 API 標準。

產品套用

Triton 支持在雲、數據中心、企業邊緣和嵌入式設備等環境中對 GPU 和CPU 進行 AI 推理，並與AWS、Google Cloud、MicrosoftAzure、阿里雲PAI-EAS 等平台集成。此外，NVIDIA AI Enterprise也集成了Triton。

相關詞條

熱門詞條

聯絡我們