首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

ICCV2023 | Masked Diffusion Transformer: 增强扩散模型对上下文关系的理解

在这项工作中,我们首先观察到DPMs通常难以学习图像中物体部分之间的关联关系,导致训练过程缓慢。为了解决这个问题,提出了一种有效的掩码扩散变换器(Masked Diffusion Transformer,MDT),以提高DPMs的训练效率。MDT引入了一个蒙面潜在建模方案,专门为基于Transformer的DPMs设计,以明确增强上下文学习能力并改进图像语义之间的关联关系学习。MDT在潜在空间中进行扩散过程以节省计算成本。它对某些图像标记进行掩码,并设计了一个不对称的掩码扩散变换器(AMDT),以一种扩散生成的方式预测被掩码的标记。MDT可以从其上下文不完整的输入中重建图像的完整信息,学习图像语义之间的关联关系。

04

【AAAI】四篇好文简读-专题8

在本文中,作者提出了一种在线聚类方法,称为对比聚类(CC),它明确地执行实例级和集群级的对比学习。具体来说,对于给定的数据集,通过数据增广构造正实例对和负实例对,然后投影到特征空间中。其中,在行空间和列空间分别进行实例级和簇级的对比学习,方法是将正对相似度最大化,将负对相似度最小化。作者的关键观察是,特征矩阵的行可以被视为实例的软标签,相应地,列可以进一步被视为聚类表示。通过同时优化实例级和集群级的对比损耗,该模型以端到端方式联合学习表示和集群分配。此外,该方法可以及时计算每个个体的簇分配,即使是在数据以流形式呈现的情况下。大量的实验结果表明,CC聚类算法在6个具有挑战性的图像基准上的性能显著优于17种竞争聚类算法。特别是,CC在CIFAR-10 (CIFAR-100)数据集上达到了0.705(0.431)的NMI,与最佳基线相比,性能提高了19% (39%)

03

扫码

添加站长 进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

    运营活动

    活动名称
    广告关闭
    领券