NVIDIA上周宣布TensorRT-LLM版本0.8.0的发布!这个更新标志着在GPU加速推断方面取得了重大进展,使得部署最前沿的语言模型架构变得轻而易举。在TensorRT-LLM,NVIDIA的目标是为您提供极速的执行速度,以解决语言模型任务,而此版本带来了大量增强功能,正是为了实现这一目标。
在这个更新中,NVIDIA将模型支持扩展到了各种架构,确保您可以使用领域内最新的技术。一些值得注意的新增功能包括:
-Phi-1.5/2.0:在您的工作流程中使用Phi架构的强大功能。
-Mamba支持:仅限于横跨单个节点和单个GPU配置,简化部署流程。
-Nougat支持:通过Nougat集成增强多模态功能。
-Qwen-VL支持:无缝整合Qwen-VL模型到您的流程中。
-RoBERTa支持:凭借@erenup的贡献,支持RoBERTa模型。
-Skywork模型支持:扩展您的选择,兼容Skywork模型。
NVIDIA为TensorRT-LLM 0.8.0添加了一系列新功能和优化,旨在提高性能和功能:
-分块上下文支持:使用分块上下文支持改进上下文处理。
-C++运行时的LoRA支持:利用LoRA支持增强运行时能力。
-Medusa解码支持:仅限于Ampere或更新GPU的Python运行时,具有精确的配置要求。
-LLaMA的StreamingLLM支持:通过流式支持增强您的LLaMA流程。
-Batch Manager改进:包括从上下文和/或生成阶段返回logits的支持,与Triton后端集成。
-量化技术:为各种模型提供平滑量化支持,提高效率而不影响准确性。API增强:引入高级API,简化端到端流程的生成任务。
NVIDIA解决了几个问题并优化了性能,以获得更顺畅的用户体验:
-Bug修复:解决了各种问题,包括异常标记行为和构建失败。
-性能优化:通过默认参数调整和优化技术实现更高的吞吐量。
-自定义AllReduce插件:优化了自定义AllReduce操作的性能,提高了效率。
-采样性能:优化了Top-P采样性能,确保更快的推理速度。
为了配合这些更新,NVIDIA改进了文档和项目组织:
-文档更新:全面更新了文档,包括性能调优的最佳实践和工作流增强。
-项目结构改进:改进了项目README结构,以便更轻松地导航和理解。
-分支管理:维护一个稳定的分支,用于可靠的发布,以及一个开发分支,用于持续的实验性更新,平衡稳定性和创新。
https://github.com/NVIDIA/TensorRT-LLM/tree/v0.8.0