每日学术速递12.8

AiCharm

发布于 2023-12-13 14:10:44

1740

发布于 2023-12-13 14:10:44

文章被收录于专栏：AiCharm

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理

点击下方卡片，关注「AiCharm」公众号

Subjects: cs.CV

1.DreamSync: Aligning Text-to-Image Generation with Image Understanding Feedback

标题：DreamSync：将文本到图像的生成与图像理解反馈结合起来

作者：Jiao Sun, Deqing Fu, Yushi Hu, Su Wang, Royi Rassin, Da-Cheng Juan, Dana Alon, Charles Herrmann, Sjoerd van Steenkiste, Ranjay Krishna, Cyrus Rashtchian

文章链接：https://arxiv.org/abs/2311.17946

摘要：

尽管取得了广泛的成功，文本到图像模型（T2I）仍然难以生成既美观又忠实于用户输入文本的图像。我们引入了 DreamSync，这是一种与模型无关的训练算法，旨在改进 T2I 模型以忠实于文本输入。DreamSync 建立在 TIFA 评估框架的最新见解之上，即大型视觉语言模型 (VLM) 可以有效识别生成的图像和文本输入之间的细粒度差异。DreamSync 使用这种洞察力来训练 T2I 模型，无需任何标记数据；它使用自己的一代改进了 T2I 模型。首先，它提示模型为给定的输入文本生成多个候选图像。然后，它使用两个 VLM 来选择最佳生成：一个视觉问答模型用于测量生成的图像与文本的对齐情况，另一个用于测量生成的审美质量。选择后，我们使用 LoRA 迭代微调 T2I 模型，以引导其生成到选定的最佳生成代。DreamSync 不需要任何额外的人工注释。模型架构变化，或强化学习。尽管很简单，DreamSync 却提高了两种基于扩散的 T2I 模型的语义对齐和审美吸引力，这已通过多个基准测试（TIFA +1.7%、DSG1K +2.9%、VILA 美学 +3.4%）和人类评估得到证明。

2.End-to-end Autonomous Driving using Deep Learning: A Systematic Review(WACV 2024)

标题：使用深度学习的端到端自动驾驶：系统回顾

作者：Chung-Ching Lin, Jiang Wang, Kun Luo, Kevin Lin, Linjie Li, Lijuan Wang, Zicheng Liu

文章链接：https://arxiv.org/abs/2311.18636

摘要：

端到端自动驾驶是一种完全可微分的机器学习系统，它将原始传感器输入数据和其他元数据作为先验信息，并直接输出自我车辆的控制信号或计划轨迹。本文试图系统地回顾所有最新的基于机器学习的技术来执行端到端任务，包括但不限于对象检测、语义场景理解、对象跟踪、轨迹预测、轨迹规划、车辆控制、社交行为和沟通。本文重点介绍最新的完全可微的端到端强化学习和基于深度学习的技术。我们的论文还通过对重要方法进行分组并展示其研究趋势来建立重要方法的分类法。最后，这项调查强调了开放的挑战，并指出了未来可能的方向，以启发该主题的进一步研究。

3.Do text-free diffusion models learn discriminative visual representations?

标题：无文本扩散模型是否可以学习有区别的视觉表示？

作者：Soumik Mukhopadhyay, Matthew Gwilliam, Yosuke Yamaguchi, Vatsal Agarwal, Namitha Padmanabhan, Archana Swaminathan, Tianyi Zhou, Abhinav Shrivastava

文章链接：https://arxiv.org/abs/2311.17921

项目代码：https://mgwillia.github.io/diffssl/

摘要：

虽然许多无监督学习模型专注于一系列任务，无论是生成任务还是判别任务，但我们探索统一表示学习器的可能性：一种同时处理这两个任务系列的模型。我们将扩散模型（一种用于生成任务的最先进的方法）确定为主要候选者。此类模型涉及训练 U-Net 来迭代预测和消除噪声，所得模型可以合成高保真、多样化、新颖的图像。我们发现 U-Net 的中间特征图是多样化的、有区别的特征表示。我们提出了一种新的注意力机制来池化特征图，并进一步利用该机制作为 DifFormer，这是来自不同扩散 U-Net 块和噪声步骤的特征的变换器特征融合。我们还开发了 DiffFeed，一种专为扩散而设计的新颖反馈机制。我们发现扩散模型比 GAN 更好，并且通过我们的融合和反馈机制，可以与最先进的无监督图像表示学习方法竞争判别任务 - 全监督和半监督的图像分类、精细转移- 粒度分类、对象检测和分割以及语义分割。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2023-12-08，如有侵权请联系 cloudcommunity@tencent.com 删除

深度学习