TensorRT-LLM

簡介

TensorRT-LLM在開源 Python API 中保留了 FasterTransformer 的核心功能，並與 TensorRT 的深度學習編譯器配合使用，以快速支持新模型和定製模型。該開源程式庫現已作為 NVIDIA NeMo 框架的一部分，在 /NVIDIA/TensorRT-LLM GitHub 資源庫中免費提供。

過去兩年，NVIDIA 一直與領先的大語言模型企業與團隊開展密切合作，以加速和最佳化大語言模型推理。

TensorRT-LLM開源程式庫可加快 NVIDIA GPU 上大語言模型的推理性能。它是NVIDIA NeMo中最佳化大語言模型推理的骨幹力量。NeMo是一個用於構建和定製生成式 AI 套用並將其部署到生產中的端到端框架，為生成式 AI 的部署提供了完整的容器，如 TensorRT-LLM 和 NVIDIA Triton 等。

特性

• 支持 Llama 1 和 2、Bloom、ChatGLM、Falcon、MPT、Baichuan 及 Starcoder 等大語言模型

• 動態批處理和分頁注意力

• 多 GPU 多節點（MGMN）推理

• FP8 精度的 NVIDIA Hopper Transformer 引擎

• 支持 NVIDIA Ampere 架構、NVIDIA Ada Lovelace 架構和 NVIDIA Hopper GPU

• 原生 Windows 支持

TensorRT-LLM

簡介

特性

相關詞條

熱門詞條