前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >NVIDIA发布TensorRT-LLM 0.8.0:加速最先进语言模型

NVIDIA发布TensorRT-LLM 0.8.0:加速最先进语言模型

作者头像
GPUS Lady
发布2024-03-14 15:40:14
2270
发布2024-03-14 15:40:14
举报
文章被收录于专栏:GPUS开发者

NVIDIA上周宣布TensorRT-LLM版本0.8.0的发布!这个更新标志着在GPU加速推断方面取得了重大进展,使得部署最前沿的语言模型架构变得轻而易举。在TensorRT-LLM,NVIDIA的目标是为您提供极速的执行速度,以解决语言模型任务,而此版本带来了大量增强功能,正是为了实现这一目标。

01、模型支持扩展

在这个更新中,NVIDIA将模型支持扩展到了各种架构,确保您可以使用领域内最新的技术。一些值得注意的新增功能包括:

-Phi-1.5/2.0:在您的工作流程中使用Phi架构的强大功能。

-Mamba支持:仅限于横跨单个节点和单个GPU配置,简化部署流程。

-Nougat支持:通过Nougat集成增强多模态功能。

-Qwen-VL支持:无缝整合Qwen-VL模型到您的流程中。

-RoBERTa支持:凭借@erenup的贡献,支持RoBERTa模型。

-Skywork模型支持:扩展您的选择,兼容Skywork模型。

02、功能增强

NVIDIA为TensorRT-LLM 0.8.0添加了一系列新功能和优化,旨在提高性能和功能:

-分块上下文支持:使用分块上下文支持改进上下文处理。

-C++运行时的LoRA支持:利用LoRA支持增强运行时能力。

-Medusa解码支持:仅限于Ampere或更新GPU的Python运行时,具有精确的配置要求。

-LLaMA的StreamingLLM支持:通过流式支持增强您的LLaMA流程。

-Batch Manager改进:包括从上下文和/或生成阶段返回logits的支持,与Triton后端集成。

-量化技术:为各种模型提供平滑量化支持,提高效率而不影响准确性。API增强:引入高级API,简化端到端流程的生成任务。

03、Bug修复和性能优化

NVIDIA解决了几个问题并优化了性能,以获得更顺畅的用户体验:

-Bug修复:解决了各种问题,包括异常标记行为和构建失败。

-性能优化:通过默认参数调整和优化技术实现更高的吞吐量。

-自定义AllReduce插件:优化了自定义AllReduce操作的性能,提高了效率。

-采样性能:优化了Top-P采样性能,确保更快的推理速度。

04、文档和项目结构

为了配合这些更新,NVIDIA改进了文档和项目组织:

-文档更新:全面更新了文档,包括性能调优的最佳实践和工作流增强。

-项目结构改进:改进了项目README结构,以便更轻松地导航和理解。

-分支管理:维护一个稳定的分支,用于可靠的发布,以及一个开发分支,用于持续的实验性更新,平衡稳定性和创新。

05、项目地址

https://github.com/NVIDIA/TensorRT-LLM/tree/v0.8.0

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-03-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 GPUS开发者 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 01、模型支持扩展
  • 02、功能增强
  • 03、Bug修复和性能优化
  • 04、文档和项目结构
  • 05、项目地址
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档