首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

NVIDIA TensorRT-LLM 性能更新,加速大模型等资源在全球1亿台RTX PC上开发部署

近日,微软在Ignite全球技术大会上正式发布了一系列新工具和资源包,其中有一条比较引人注目的就是OpenAI Chat API实现了对NVIDIA TensorRT-LLM的接入接口支持。在Windows 11系统上,微软对AI人工智能开发、应用的支持越来越深入,而对AI开发应用的深度支持,也标志着基于Windows 11的PC迈入了一个全新的科技进化关键节点。

随着Windows 11提供对TensorRT-LLM的支持,RTX GPU驱动的 Windows PC 上运行大新模型也得以高效地实现。这一新的优化以及基于NVIDIA TensorRT-LLM支持的模型和资源,将能够为用户提供一个巨大的提升生产力水准的机会,让开发人员能够在基于NVIDIA RTX GPU的电脑上更加轻松地创建AI应用,甚至改变人们使用电脑的方式和习惯。

TensorRT-LLM,基于大语言模型的AI开发SDK

早在今年9月,NVIDIA就已经宣布了TensorRT-LLM的相关消息,10月中下旬时也进行了正式的发布。NVIDIA TensorRT-LLM可以看作Tensor RT的一个分支工具,其面向的主要是LLM(Large Language Model)大语言模型的运行和计算。

NVIDIA TensorRT是一套用于高性能深度学习推理计算的SDK,包括了深度学习推理优化堆栈和运行环境,能够为推理应用程序提供低延迟、高性能的体验。作为TensorRT的一个分支,TensorRT-LLM也是一个开源的SDK库,它能够在基于NVIDIA RTX GPU的AI平台上加速和优化最新大语言模型的推理性能。

LLM大语言模型是一种基于深度推理学习的算法,可以使用非常大的数据集来识别、总结、翻译、预测以及生成内容。利用LLM,科学家和研究人员无疑可以解锁更多的研究、设计、创作可能性,比如病理推断、动态机器人聊天、机器人教育学习、报表总结等等。NVIDIA TensorRT-LLM在发布之初就已经提供了对常见大语言模型的支持,而即将推出的更新版本还增加了对诸多新的大语言模型的支持。

即将在11月底发布的TensorRT-LLM v0.6.0 版本更新将带来高达5倍的推理性能提升,并支持更多热门的 LLM大语言模型,包括全新Mistral 7B 和 Nemotron-3 8B。这些 LLM 版本将可在所有采用8GB及以上显存的 GeForce RTX 30 系列和 40 系列 GPU 上运行,从而使相对服务器而言可以说是便携的 Windows PC也能获得快速、准确的本地运行 LLM 功能。

▲相对于当前领先的后端应用,使用TensorRT-LLM v0.6.0能带来高达5倍的推理性能提升。

如今Windows 11提供了OpenAI这一应用最为广泛的AI聊天库的TensorRT-LLM接口,意味着用户可以在Windows系统下使用RTX GPU来编译和优化运行LLM。而且在过去的两年时间内,NVIDIA一直都与业界领先的LLM公司保持了密切的合作,如Anyscale、Baichuan、Cohere、Deci、Grammarly、Meta、Mistral AI等,以优化和加速基于RTX GPU的LLM推理计算。相对于其他硬件平台的支撑,只要用户拥有8GB显存以上的RTX 30系以上GPU,那么就能在台式机或笔记本电脑上更快、更好地完成AI计算的工作负载。

新发布的TensorRT-LLM可在https://developer.nvidia.com/blog/optimizing-inference-on-llms-with-tensorrt-llm-now-publicly-available/ 代码库中下载安装,新调优的模型将在 ngc.nvidia.com 提供。

AI Workbench,统一易用的高效化

▲NVIDIA AI Woekbench是基于统一平台下的工具包,可以在云端和本地自由协调。

众所周知,基于LLM的定制生成式AI需要耗费时间和精力来维护项目,尤其是如果没有相应的加速技术,就将极大增加项目的成本且运行缓慢。特别是跨多个环境和平台进行协作和部署时,这一过程可能会异常复杂和耗时。

尽管有许多的优化已经出现来应对这一问题,从内核融合的模型优化到运行优化等,但对用户来说,很难确定哪些技术更适合自己的应用开发项目,也很难驾驭各种技术交互之间的兼容性问题。而NVIDIA TensorRT-LLM综合库在NVIDIA AI Workbench的统一管理下,一切都将变得更加简单,让每个人都可以尝试实现生成式人工智能(GenAI)的开发。

NVIDIA AI Workbench是一个统一、易于使用的工具包,它允许开发人员在台式机、笔记本电脑或工作站上快速创建、测试和自定义预训练的生成式AI模型和LLM,然后将它们扩展到几乎任何数据中心、公有云或NVIDIA DGX云上。简化的用户界面支持跨AI项目团队的协作,并简化对Hugging Face、GitHub和NVIDIA NGC等热门存储库的访问。这使开发者能够进行无缝协作和部署,快速创建具有成本效益、可扩展的生成式AI模型。可以说,AI Workbench让TensorRT-LLM更加易用,消除了设计、运行AI计算任务的复杂性,对新手或专家都非常友好。

提高生产力:一键在 Windows 和 Linux 计算机上设置容器和开发人员环境。或者通过 JupyterLab 和VS Code无须设置即可访问GPU优化的最佳框架。

再现性和可移植性:能轻松将GitHub内容容器化,以便在Jupyter环境中更快地构建高质量模型。

多站点团队协作:轻松在本地和远程协作和共享工作项目,在笔记本电脑、GPU服务器、云实例和NVIDIA DGX云服务器之间轻松移动工作负载。

更易实现的本地AI对话与性能加速

▲基于OpenAI的应用在全球范围内得到了极为广泛的发展和使用

OpenAI的聊天API在全球范围内可能是使用得最为广泛的,从网页内容抓取总结、文件写作到电子邮件,甚至是分析和可视化数据表格以及创建演示文档,OpenAI已经在各种应用程序中得到了普惠式的扩展。

不过对这种基于云端的AI应用有一个巨大的问题,那就是用户需要上传自己的数据进行云端推理计算,对于私人数据、保密数据或大的数据集合来说,显得不是特别实用。

本次发布的NVIDIA TesorRT-LLM for Windows就能在很大程度上解决这一问题。TensorRT-LLM for Windows通过全新的封装即可提供了与OpenAI这类得到广泛应用的ChatAPI类似的接口,也能为AI开发者带来相似的工作流程。不过对开发者来说,使用TensorRT-LLM库,无论设计的模型或应用要在基于RTX GPU的本地运行,或是在云端运行,只需要修改一两行代码,开发项目和应用就能快速地从本地AI收益,用户可以将自己的数据保存在PC上,而不必担心数据会上传到云端。

▲使用由 TensorRT-LLM 驱动的 Microsoft VS Code 插件 Continue.dev 编码助手

▲NVIDIA Nemo是解决LLM构建和应用的端到端的工具库,也是NVIDIA TensorRT-LLM的重要组成部分。

此外,还有很重要的一点是,这些项目和应用中有很多都是开源的,开发者可以轻松利用和扩展它们的功能,从而加速生成式AI在RTX 驱动的Windows PC上的应用。同时,该封装接口可以和所有对 TensorRT-LLM 进行优化的 LLM(如Llama 2、Mistral 和 NV LLM等)配合使用,并作为参考项目在 GitHub 上发布,同时发布的还有用于在 RTX 上使用 LLM 的其他开发者资源。

RTX加速AI,未来更可期

从本次大会上的信息来看,NVIDIA和微软还联合发布了通过DirectML API在RTX GPU上加速Llama 2这一AI大语言模型的消息。这意味着开发者将能够利用现今的尖端AI模型,进行跨平台、跨供应商的API进行部署,RTX GPU为其提供高速推理计算性能,这也会让AI彻底进入PC变得非常简单。届时开发者和爱好者可下载最新的ONNX运行,并按微软的安装说明进行操作,同时安装最新NVIDIA驱动(将于11月21日发布)以获得最新优化体验。

在这次Ignite大会上,虽然关于Windows 11支持TensorRT-LLM的消息字数不多,但信息量确实堪称爆炸。目前全球已经超过一亿台的RTX PC,而这些新优化、新模型和新资源已经彻底加速了AI在RTX PC上的开发和部署。同时,据NVIDIA表示,全球已经有400多个合作伙伴加入了这一行列,发布了数据众多的经由RTX GPU加速的AI驱动下的各类应用或游戏。而随着NVIDIA对TensorRT-LLM的不断优化,随着模型易用性的不断提高,以及越来越多的开发者将更多基于生成式AI的应用和功能带到Windows PC上,我们相信RTX GPU将在其中扮演更为重要的中坚角色,甚至成为用户使用、开发AI技术的核心,在未来必然还会扮演“关键先生”的角色。拭目以待!

  • 发表于:
  • 原文链接https://page.om.qq.com/page/On_maTgXyd_jgZmTeP8z6iTg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券