首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >每日学术速递7.22

每日学术速递7.22

作者头像
AiCharm
发布2023-09-06 15:55:20
发布2023-09-06 15:55:20
2780
举报
文章被收录于专栏:AiCharmAiCharm

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理

Subjects: cs.CV

1.End-to-End Diffusion Latent Optimization Improves Classifier Guidance(ICCV 2023)

标题:端到端扩散潜在优化改进了分类器指导

作者:Bram Wallace, Akash Gokul, Stefano Ermon, Nikhil Naik

文章链接:https://arxiv.org/abs/2303.13703

摘要:

分类器指导——使用图像分类器的梯度来引导扩散模型的生成——有可能极大地扩展对图像生成和编辑的创意控制。然而,目前的分类器指导需要训练新的噪声感知模型以获得准确的梯度,或者使用最终一代的一步去噪近似,这会导致梯度错位和次优控制。我们强调了这种近似的缺点,并提出了一种新颖的指导方法:扩散潜伏直接优化(DOODL),它通过优化扩散潜伏来实现即插即用指导。预训练分类器在真实生成像素上的梯度,使用可逆扩散过程来实现内存高效的反向传播。DOODL 展示了更精确指导的潜力,在不同形式的指导中,在计算和人类评估指标上,DOODL 的表现优于一步分类器指导:使用 CLIP 指导来改进 DrawBench 中复杂提示的生成,使用细粒度视觉分类器来扩展词汇量稳定扩散,使用 CLIP 视觉编码器实现图像调节生成,并使用美学评分网络提高图像美观度。此 https URL 处的代码。

2.ZoeDepth: Zero-shot Transfer by Combining Relative and Metric Depth

标题:ZoeDepth:通过结合相对深度和公制深度进行零样本传输

作者:Shariq Farooq Bhat, Reiner Birkl, Diana Wofk, Peter Wonka, Matthias Müller

文章链接:https://arxiv.org/abs/2302.12288

项目代码:https://github.com/isl-org/ZoeDepth

摘要:

本文解决了单幅图像的深度估计问题。现有的工作要么专注于不考虑度量尺度的泛化性能,即相对深度估计,要么专注于特定数据集的最新结果,即度量深度估计。我们提出了第一种结合这两个世界的方法,从而形成一个具有出色泛化性能同时保持度量规模的模型。我们的旗舰模型 ZoeD-M12-NK 使用相对深度在 12 个数据集上进行预训练,并使用度量深度在两个数据集上进行微调。我们为每个域使用一个轻量级头部和一个新颖的箱调整设计,称为公制箱模块。在推理过程中,每个输入图像都会使用潜在分类器自动路由到适当的头部。我们的框架允许多种配置,具体取决于用于相对深度预训练和度量微调的数据集。无需预训练,我们就可以显着提高 NYU Depth v2 室内数据集的最新技术 (SOTA)。通过对 12 个数据集进行预训练并在 NYU Depth v2 室内数据集上进行微调,我们可以进一步改进 SOTA,在相对绝对误差 (REL) 方面总共提高了 21%。最后,ZoeD-M12-NK 是第一个可以在多个数据集(NYU Depth v2 和 KITTI)上联合训练的模型,性能不会显着下降,并对来自室内和室外领域的八个未见过的数据集实现了前所未有的零样本泛化性能。代码和预训练模型可在此 https URL 公开获取。

3.Top-Down Visual Attention from Analysis by Synthesis(CVPR2023 highlight)

标题:综合分析的自上而下的视觉注意力

作者:Jiazheng Xu, Xiao Liu, Yuchen Wu, Yuxuan Tong, Qinkai Li, Ming Ding, Jie Tang, Yuxiao Dong

文章链接:https://arxiv.org/abs/2303.13043

项目代码:https://sites.google.com/view/absvit

摘要:

当前的注意力算法(例如自注意力)是刺激驱动的,并突出显示图像中的所有显着对象。然而,像人类这样的智能代理通常会根据手头的高级任务来引导他们的注意力,只关注与任务相关的对象。这种任务引导的自上而下注意力的能力提供了任务自适应表示,并帮助模型泛化到各种任务。在本文中,我们从经典的综合分析(AbS)视觉角度考虑自上而下的注意力。先前的工作表明视觉注意力和稀疏重建之间在功能上是等价的;我们展示了一个 AbS 视觉系统,它优化了由目标导向的自上而下信号调制的类似稀疏重建目标,自然地模拟了自上而下的注意力。我们进一步提出综合分析视觉变换器(AbSViT),它是一种自上而下的调制 ViT 模型,可以变分逼近 AbS,并实现可控的自上而下的注意力。对于现实世界的应用程序,AbSViT 持续改进视觉语言任务的基线,例如 VQA 和零样本检索,其中语言引导自上而下的注意力。AbSViT 还可以作为通用主干,提高分类、语义分割和模型鲁棒性的性能。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-07-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AiCharm 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档