TensorRT-LLM

TensorRT-LLM是NVIDIA推出的一個開源庫,用於定義、最佳化和執行大型語言模型 (LLM) 在生產環境的推理。

簡介,特性,

簡介

TensorRT-LLM在開源 Python API 中保留了 FasterTransformer 的核心功能,並與 TensorRT 的深度學習編譯器配合使用,以快速支持新模型和定製模型。該開源程式庫現已作為 NVIDIA NeMo 框架的一部分,在 /NVIDIA/TensorRT-LLM GitHub 資源庫中免費提供。
過去兩年,NVIDIA 一直與領先的大語言模型企業與團隊開展密切合作,以加速和最佳化大語言模型推理。
TensorRT-LLM開源程式庫可加快 NVIDIA GPU 上大語言模型的推理性能。它是NVIDIA NeMo中最佳化大語言模型推理的骨幹力量。NeMo是一個用於構建和定製生成式 AI 套用並將其部署到生產中的端到端框架,為生成式 AI 的部署提供了完整的容器,如 TensorRT-LLM 和 NVIDIA Triton 等。

特性

• 支持 Llama 1 和 2、Bloom、ChatGLM、Falcon、MPT、Baichuan 及 Starcoder 等 大語言模型
• 動態批處理和分頁注意力
• 多 GPU 多節點(MGMN)推理
• FP8 精度的 NVIDIA Hopper Transformer 引擎
• 支持 NVIDIA Ampere 架構、NVIDIA Ada Lovelace 架構和 NVIDIA Hopper GPU
• 原生 Windows 支持

相關詞條

熱門詞條

聯絡我們