在2025年的今天,AI生图技术已经渗透到生活的方方面面,从游戏到电影工业,从数字考古到广告设计。传统扩散模型(Diffusion Models)以及新兴的流匹配(Flow Matching)等方法,作为AI生图的主流技术,持续展现惊人的创造力。
在传统认知中,噪声条件(Noise Conditioning)是这些去噪模型(Denoising Models)中不可或缺的部分。神经网络依赖噪声条件来确定当前图片的噪声等级,从而预测噪声或与噪声相关的目标。然而,近期由CV泰斗何恺明领衔,三位MIT大一新生作为共同第一作者的最新研究发现,在许多情况下,Denoising Models 的性能可能并不依赖于噪声条件。
这一研究在学术界引发了广泛关注。有资深研究者坦言:“我们耗费数年优化的噪声条件技术,竟可能是冗余设计。这再次印证了科学探索的本质——在数学框架内持续试错,突破认知边界。”
北京时间3月3日上午9点(美西时间3月2日下午5点,美东时间晚上8点),Z Potentials平台将特邀本篇论文的作者团队进行专题直播讲座,敬请期待。
三位国际学科竞赛背景的中国MIT大一新生孙启傲(Qiao Sun)、姜志城(Zhicheng Jiang)、赵瀚宏(Hanhong Zhao)以共同一作身份取得研究成果。讲座中会设置Q&A环节,三位将延伸探讨关于Generative Models和DeepSeek等开源模型的看法和可能的发展方向。
在多数主流模型架构中,移除噪声条件后模型性能仅出现温和衰减,流匹配模型甚至通常展现出更优表现。更令人瞩目的是,这篇研究设计的新型无噪声条件模型uEDM,在CIFAR-10基准测试中取得2.23的FID分数,与顶尖噪声条件模型(EDM: 1.97)仅有毫厘之差。
这项研究颠覆性地证明了噪声条件并非扩散模型的核心要素,通过构建理论框架与实验结果佐证,揭示了传统噪声条件技术在实际应用中的非必要性。这项研究不仅验证了主流去噪模型在移除噪声条件后的性能稳定性,还开创性地提出了误差的理论解释模型行为差异,以此作为动机最终设计出与有噪声条件模型表现相差仅13%的无噪声条件架构uEDM。该发现为降低模型计算复杂度,启发新的模型设计提供了基石。
1. 在众多主流去噪模型上进行实验,证明噪声条件移除在诸多模型上只产生少量影响(decent degradation)。
2. 给出理论层面的分析,以及定性和实验结果匹配的误差界。
3. 构建的无条件模型uEDM在CIFAR图像生成任务中达到near-SOTA级别的2.23 FID值。
Paper link:https://arxiv.org/pdf/2502.13129
Z Tech诚邀海内外学术工作者投稿或加入我们的Phd/Reseachers的实名社群!
领取专属 10元无门槛券
私享最新 技术干货