NVIDIA TensorRT-LLM 性能更新，加速大模型等资源在全球1亿台RTX PC上开发部署

文章来源：企鹅号 - 微型计算机

近日，微软在Ignite全球技术大会上正式发布了一系列新工具和资源包，其中有一条比较引人注目的就是OpenAI Chat API实现了对NVIDIA TensorRT-LLM的接入接口支持。在Windows 11系统上，微软对AI人工智能开发、应用的支持越来越深入，而对AI开发应用的深度支持，也标志着基于Windows 11的PC迈入了一个全新的科技进化关键节点。

随着Windows 11提供对TensorRT-LLM的支持，RTX GPU驱动的 Windows PC 上运行大新模型也得以高效地实现。这一新的优化以及基于NVIDIA TensorRT-LLM支持的模型和资源，将能够为用户提供一个巨大的提升生产力水准的机会，让开发人员能够在基于NVIDIA RTX GPU的电脑上更加轻松地创建AI应用，甚至改变人们使用电脑的方式和习惯。

TensorRT-LLM，基于大语言模型的AI开发SDK

早在今年9月，NVIDIA就已经宣布了TensorRT-LLM的相关消息，10月中下旬时也进行了正式的发布。NVIDIA TensorRT-LLM可以看作Tensor RT的一个分支工具，其面向的主要是LLM(Large Language Model)大语言模型的运行和计算。

NVIDIA TensorRT是一套用于高性能深度学习推理计算的SDK，包括了深度学习推理优化堆栈和运行环境，能够为推理应用程序提供低延迟、高性能的体验。作为TensorRT的一个分支，TensorRT-LLM也是一个开源的SDK库，它能够在基于NVIDIA RTX GPU的AI平台上加速和优化最新大语言模型的推理性能。

LLM大语言模型是一种基于深度推理学习的算法，可以使用非常大的数据集来识别、总结、翻译、预测以及生成内容。利用LLM，科学家和研究人员无疑可以解锁更多的研究、设计、创作可能性，比如病理推断、动态机器人聊天、机器人教育学习、报表总结等等。NVIDIA TensorRT-LLM在发布之初就已经提供了对常见大语言模型的支持，而即将推出的更新版本还增加了对诸多新的大语言模型的支持。

即将在11月底发布的TensorRT-LLM v0.6.0 版本更新将带来高达5倍的推理性能提升，并支持更多热门的 LLM大语言模型，包括全新Mistral 7B 和 Nemotron-3 8B。这些 LLM 版本将可在所有采用8GB及以上显存的 GeForce RTX 30 系列和 40 系列 GPU 上运行，从而使相对服务器而言可以说是便携的 Windows PC也能获得快速、准确的本地运行 LLM 功能。

▲相对于当前领先的后端应用，使用TensorRT-LLM v0.6.0能带来高达5倍的推理性能提升。

如今Windows 11提供了OpenAI这一应用最为广泛的AI聊天库的TensorRT-LLM接口，意味着用户可以在Windows系统下使用RTX GPU来编译和优化运行LLM。而且在过去的两年时间内，NVIDIA一直都与业界领先的LLM公司保持了密切的合作，如Anyscale、Baichuan、Cohere、Deci、Grammarly、Meta、Mistral AI等，以优化和加速基于RTX GPU的LLM推理计算。相对于其他硬件平台的支撑，只要用户拥有8GB显存以上的RTX 30系以上GPU，那么就能在台式机或笔记本电脑上更快、更好地完成AI计算的工作负载。

新发布的TensorRT-LLM可在https://developer.nvidia.com/blog/optimizing-inference-on-llms-with-tensorrt-llm-now-publicly-available/ 代码库中下载安装，新调优的模型将在 ngc.nvidia.com 提供。

AI Workbench，统一易用的高效化

▲NVIDIA AI Woekbench是基于统一平台下的工具包，可以在云端和本地自由协调。

众所周知，基于LLM的定制生成式AI需要耗费时间和精力来维护项目，尤其是如果没有相应的加速技术，就将极大增加项目的成本且运行缓慢。特别是跨多个环境和平台进行协作和部署时，这一过程可能会异常复杂和耗时。

尽管有许多的优化已经出现来应对这一问题，从内核融合的模型优化到运行优化等，但对用户来说，很难确定哪些技术更适合自己的应用开发项目，也很难驾驭各种技术交互之间的兼容性问题。而NVIDIA TensorRT-LLM综合库在NVIDIA AI Workbench的统一管理下，一切都将变得更加简单，让每个人都可以尝试实现生成式人工智能(GenAI)的开发。

NVIDIA AI Workbench是一个统一、易于使用的工具包，它允许开发人员在台式机、笔记本电脑或工作站上快速创建、测试和自定义预训练的生成式AI模型和LLM，然后将它们扩展到几乎任何数据中心、公有云或NVIDIA DGX云上。简化的用户界面支持跨AI项目团队的协作，并简化对Hugging Face、GitHub和NVIDIA NGC等热门存储库的访问。这使开发者能够进行无缝协作和部署，快速创建具有成本效益、可扩展的生成式AI模型。可以说，AI Workbench让TensorRT-LLM更加易用，消除了设计、运行AI计算任务的复杂性，对新手或专家都非常友好。

提高生产力：一键在 Windows 和 Linux 计算机上设置容器和开发人员环境。或者通过 JupyterLab 和VS Code无须设置即可访问GPU优化的最佳框架。

再现性和可移植性：能轻松将GitHub内容容器化，以便在Jupyter环境中更快地构建高质量模型。

多站点团队协作：轻松在本地和远程协作和共享工作项目，在笔记本电脑、GPU服务器、云实例和NVIDIA DGX云服务器之间轻松移动工作负载。

更易实现的本地AI对话与性能加速

▲基于OpenAI的应用在全球范围内得到了极为广泛的发展和使用

OpenAI的聊天API在全球范围内可能是使用得最为广泛的，从网页内容抓取总结、文件写作到电子邮件，甚至是分析和可视化数据表格以及创建演示文档，OpenAI已经在各种应用程序中得到了普惠式的扩展。

不过对这种基于云端的AI应用有一个巨大的问题，那就是用户需要上传自己的数据进行云端推理计算，对于私人数据、保密数据或大的数据集合来说，显得不是特别实用。

本次发布的NVIDIA TesorRT-LLM for Windows就能在很大程度上解决这一问题。TensorRT-LLM for Windows通过全新的封装即可提供了与OpenAI这类得到广泛应用的ChatAPI类似的接口，也能为AI开发者带来相似的工作流程。不过对开发者来说，使用TensorRT-LLM库，无论设计的模型或应用要在基于RTX GPU的本地运行，或是在云端运行，只需要修改一两行代码，开发项目和应用就能快速地从本地AI收益，用户可以将自己的数据保存在PC上，而不必担心数据会上传到云端。

▲使用由 TensorRT-LLM 驱动的 Microsoft VS Code 插件 Continue.dev 编码助手

▲NVIDIA Nemo是解决LLM构建和应用的端到端的工具库，也是NVIDIA TensorRT-LLM的重要组成部分。

此外，还有很重要的一点是，这些项目和应用中有很多都是开源的，开发者可以轻松利用和扩展它们的功能，从而加速生成式AI在RTX 驱动的Windows PC上的应用。同时，该封装接口可以和所有对 TensorRT-LLM 进行优化的 LLM（如Llama 2、Mistral 和 NV LLM等）配合使用，并作为参考项目在 GitHub 上发布，同时发布的还有用于在 RTX 上使用 LLM 的其他开发者资源。

RTX加速AI，未来更可期

从本次大会上的信息来看，NVIDIA和微软还联合发布了通过DirectML API在RTX GPU上加速Llama 2这一AI大语言模型的消息。这意味着开发者将能够利用现今的尖端AI模型，进行跨平台、跨供应商的API进行部署，RTX GPU为其提供高速推理计算性能，这也会让AI彻底进入PC变得非常简单。届时开发者和爱好者可下载最新的ONNX运行，并按微软的安装说明进行操作，同时安装最新NVIDIA驱动（将于11月21日发布）以获得最新优化体验。

在这次Ignite大会上，虽然关于Windows 11支持TensorRT-LLM的消息字数不多，但信息量确实堪称爆炸。目前全球已经超过一亿台的RTX PC，而这些新优化、新模型和新资源已经彻底加速了AI在RTX PC上的开发和部署。同时，据NVIDIA表示，全球已经有400多个合作伙伴加入了这一行列，发布了数据众多的经由RTX GPU加速的AI驱动下的各类应用或游戏。而随着NVIDIA对TensorRT-LLM的不断优化，随着模型易用性的不断提高，以及越来越多的开发者将更多基于生成式AI的应用和功能带到Windows PC上，我们相信RTX GPU将在其中扮演更为重要的中坚角色，甚至成为用户使用、开发AI技术的核心，在未来必然还会扮演“关键先生”的角色。拭目以待！

发表于: 2023-11-162023-11-16 22:06:54
原文链接：https://page.om.qq.com/page/On_maTgXyd_jgZmTeP8z6iTg0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

NVIDIA TensorRT-LLM 性能更新，加速大模型等资源在全球1亿台RTX PC上开发部署

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐