开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

社区首页 >专栏 >NVIDIA发布TensorRT-LLM 0.8.0：加速最先进语言模型

NVIDIA发布TensorRT-LLM 0.8.0：加速最先进语言模型

作者头像

GPUS Lady

发布于 2024-03-14 15:40:14

2270

发布于 2024-03-14 15:40:14

举报

文章被收录于专栏：GPUS开发者

NVIDIA上周宣布TensorRT-LLM版本0.8.0的发布！这个更新标志着在GPU加速推断方面取得了重大进展，使得部署最前沿的语言模型架构变得轻而易举。在TensorRT-LLM，NVIDIA的目标是为您提供极速的执行速度，以解决语言模型任务，而此版本带来了大量增强功能，正是为了实现这一目标。

01、模型支持扩展

在这个更新中，NVIDIA将模型支持扩展到了各种架构，确保您可以使用领域内最新的技术。一些值得注意的新增功能包括：

-Phi-1.5/2.0：在您的工作流程中使用Phi架构的强大功能。

-Mamba支持：仅限于横跨单个节点和单个GPU配置，简化部署流程。

-Nougat支持：通过Nougat集成增强多模态功能。

-Qwen-VL支持：无缝整合Qwen-VL模型到您的流程中。

-RoBERTa支持：凭借@erenup的贡献，支持RoBERTa模型。

-Skywork模型支持：扩展您的选择，兼容Skywork模型。

02、功能增强

NVIDIA为TensorRT-LLM 0.8.0添加了一系列新功能和优化，旨在提高性能和功能：

-分块上下文支持：使用分块上下文支持改进上下文处理。

-C++运行时的LoRA支持：利用LoRA支持增强运行时能力。

-Medusa解码支持：仅限于Ampere或更新GPU的Python运行时，具有精确的配置要求。

-LLaMA的StreamingLLM支持：通过流式支持增强您的LLaMA流程。

-Batch Manager改进：包括从上下文和/或生成阶段返回logits的支持，与Triton后端集成。

-量化技术：为各种模型提供平滑量化支持，提高效率而不影响准确性。API增强：引入高级API，简化端到端流程的生成任务。

03、Bug修复和性能优化

NVIDIA解决了几个问题并优化了性能，以获得更顺畅的用户体验：

-Bug修复：解决了各种问题，包括异常标记行为和构建失败。

-性能优化：通过默认参数调整和优化技术实现更高的吞吐量。

-自定义AllReduce插件：优化了自定义AllReduce操作的性能，提高了效率。

-采样性能：优化了Top-P采样性能，确保更快的推理速度。

04、文档和项目结构

为了配合这些更新，NVIDIA改进了文档和项目组织：

-文档更新：全面更新了文档，包括性能调优的最佳实践和工作流增强。

-项目结构改进：改进了项目README结构，以便更轻松地导航和理解。

-分支管理：维护一个稳定的分支，用于可靠的发布，以及一个开发分支，用于持续的实验性更新，平衡稳定性和创新。

05、项目地址

https://github.com/NVIDIA/TensorRT-LLM/tree/v0.8.0

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2024-03-08，如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 GPUS开发者微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

评论

登录后参与评论

0 条评论

热度

最新

LV.

目录

01、模型支持扩展
02、功能增强
03、Bug修复和性能优化
04、文档和项目结构
05、项目地址