支持特性

最近更新时间:2025-08-12 18:58:02

我的收藏
整体看,DiT 类模型的加速场景主要包括两大类:
时延敏感型场景,客户期望单次出图/视频的时间尽可能短,提升用户体验。
成本敏感型场景,客户期望尽可能利用有限的算力资源,提升请求服务量。
针对上述两类需求,TACO DiT 分别提供多卡并行和单卡加速两种解决方案,二者可以同时使用。

多卡并行加速
通过聚合多张卡的算力,降低单次推理耗时。主要的并行方法包括:
混合序列并行:Ulysses 并行和 Ring-Attention 并行。文生图/视频场景,通常会将图片进行 patch 处理变成类似文本的序列,再交给 Transformer 进行噪声预测,由于图片的分辨率/信息量较大,导致输入的序列长度较长,Attention 部分计算耗时占比高。为了降低单次推理时延,通过混合序列并行加速计算。
CFG(Classifier-Free Guidance) 并行:文生图/视频场景,为了提升生成内容的质量和效果,通常会包含有条件(conditioned)的预测和无条件(unconditioned)的预测,从本质上看,二者只是输入序列是否包含文本提示等方面的差异,计算逻辑完全一致,所以可以尝试使用不同的卡同时计算两种预测。
PipeFusion 并行:将输入图片/视频切分成多个 patch,通过流水线方式在多个设备之间并行计算,降低推理时延。
单卡加速
算子优化:针对计算耗时热点部分,提供定制算子或者量化加速。
计算 Cache 优化:减少重复的计算步骤,降低推理时延。
图编译优化:针对琐碎小算子区域使用编译优化,加速计算图执行。

由于文生图/视频场景工作流的定义较为灵活,所以业务场景的节点多种多样,个性化程度较高,所以推理优化往往需要一些专家介入,并提供优化指导建议,TACO DiT 团队可以提供专业的 技术支持,协助重点客户进行工作流的极致性能优化。