前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >NVIDIA TensorRT通过8位量化将Stable Diffusion加速近2倍

NVIDIA TensorRT通过8位量化将Stable Diffusion加速近2倍

作者头像
GPUS Lady
发布2024-03-14 15:42:11
1670
发布2024-03-14 15:42:11
举报
文章被收录于专栏:GPUS开发者GPUS开发者

在充满活力的生成式人工智能领域,扩散模型以其能够通过文本提示生成高质量图像而脱颖而出。像Stable Diffusion这样的模型已经彻底改变了创意领域的格局。

然而,利用扩散模型进行推理可能会因为所需的迭代去噪步骤而需要大量计算资源。这给那些希望实现最佳端到端推理速度的公司和开发人员带来了相当大的挑战。

划重点

NVIDIA TensorRT 9.2.0引入了一个改变游戏规则的量化工具包!这个工具包引入了改进的8位(FP8或INT8)后训练量化(PTQ),在保持图像质量的同时,极大地加速了在NVIDIA硬件上部署扩散模型。毫不奇怪,TensorRT的8位量化已经成为许多生成式人工智能公司的最爱,特别是那些在创意视频编辑应用中引领潮流的公司。

最近,NVIDIA在他们的blog上发布了一个文章,深入探讨了TensorRT在Stable Diffusion XL上的性能。NVIDIA的研究人员揭示了使TensorRT成为低延迟Stable Diffusion推理英雄的技术秘密。在Blog里,还指导您如何使用TensorRT仅需几行代码就能为您的模型提速。

基准测试

NVIDIA已经准备好了benchmark!NVIDIA TensorRT用于扩散模型的INT8和FP8量化方法相比于原生PyTorch在FP16下运行,可以实现在NVIDIA RTX 6000 Ada GPU上分别达到1.72倍和1.95倍的惊人加速。FP8相对于INT8的额外提升?这完全取决于量化多头注意力(MHA)层!使用TensorRT的8位量化不仅可以提高生成式人工智能应用的响应速度,还可以降低推理成本,同时保持图像质量。

但等等,这还不是全部!TensorRT不仅加速推理,还擅长保持图像质量。通过其专有的量化技术,TensorRT生成的图像几乎与原始FP16图像无法区分。这有多酷?

在征服推理速度挑战的过程中,TensorRT面临着一个强大的敌人:扩散模型独特的多时间步去噪过程。为了克服这一障碍,NVIDIA TensorRT为SmoothQuant开发了一个精细调校的调优管道,SmoothQuant是扩散模型中一种常用的PTQ方法。该管道确保了每个层的最佳参数设置,从而产生了比现有方法更优越的图像质量。

这还不是全部!TensorRT还应对了扩散模型在不同时间步中激活分布变化的挑战。推出了百分位量化,一种专为扩散模型设计的量身定制方法,专注于步骤范围内的重要百分位数。这种独特的方法确保了TensorRT生成的图像几乎与原始FP16精度下产生的图像一致,将您的生成式人工智能应用提升到新的高度!

结论

在生成式人工智能时代,拥有一个注重易用性的推理解决方案至关重要。借助NVIDIA TensorRT,您可以通过其独有的8位量化技术无缝实现高达2倍的推理速度加速,同时确保图像质量不受损,为用户提供卓越的体验。

TensorRT在平衡速度和质量方面的承诺突显了它作为加速人工智能应用的首选之一的地位,让您能够轻松交付尖端解决方案。

在这篇Blog里,NVIDIA也详细描述了如何使用TensorRT 8位量化加速扩散模型的教程,大家可以自己去访问看看吧!

https://developer.nvidia.com/blog/tensorrt-accelerates-stable-diffusion-nearly-2x-faster-with-8-bit-post-training-quantization/?=&linkId=100000248434902&fbclid=IwAR0tMbb8IzhKllj0r0PLp_do4W-P8ha0X_pxOkMxuk93Hcvgh-R-TiQ0cE4

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2024-03-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 GPUS开发者 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档