点击下方卡片,关注「AiCharm」公众号
Subjects: cs.CV
1.Infinite Photorealistic Worlds using Procedural Generation(CVPR 2023)

标题:使用程序生成的无限逼真世界
作者:Alexander Raistrick, Lahav Lipson, Zeyu Ma
文章链接:https://arxiv.org/abs/2306.09310
项目代码:https://infinigen.org/







摘要:
我们介绍了 Infinigen,它是自然世界逼真的 3D 场景的程序生成器。Infinigen 完全是程序化的:从形状到纹理的每项资产都是通过随机数学规则从头开始生成的,不使用外部源并允许无限变化和组合。Infinigen 提供广泛的自然界物体和场景覆盖,包括植物、动物、地形以及火、云、雨和雪等自然现象。Infinigen 可用于为广泛的计算机视觉任务生成无限多样的训练数据,包括对象检测、语义分割、光流和 3D 重建。我们希望 Infinigen 成为计算机视觉研究及其他领域的有用资源。请访问此 https URL 以获取视频、代码和预生成的数据。
2.Robot Learning with Sensorimotor Pre-training

标题:通过感觉运动预训练进行机器人学习
作者:Ilija Radosavovic, Baifeng Shi, Letian Fu, Ken Goldberg, Trevor Darrell, Jitendra Malik
文章链接:https://arxiv.org/abs/2306.10007
项目代码:https://robotic-pretrained-transformer.github.io/






摘要:
我们提出了一种自我监督的机器人感觉运动预训练方法。我们的模型称为 RPT,是一个在感觉运动标记序列上运行的 Transformer。给定一系列相机图像、本体感受机器人状态和过去的动作,我们将交错序列编码为标记,屏蔽掉随机子集,并训练模型来预测屏蔽掉的内容。我们假设,如果机器人能够预测缺失的内容,它就已经获得了一个能够使其行动的物理世界的良好模型。RPT 旨在对潜在的视觉表示进行操作,这使得预测易于处理,能够扩展到 10 倍大的模型,并在真实机器人上进行 10 Hz 推理。为了评估我们的方法,我们使用运动规划和基于模型的抓取算法的组合,在 9 个月内收集了 20,000 个真实世界轨迹的数据集。我们发现,对这些数据的预训练始终优于从头开始的训练,导致块堆叠任务提高 2 倍,并且具有良好的缩放特性。
3.Linguistic Binding in Diffusion Models: Enhancing Attribute Correspondence through Attention Map Alignment

标题:扩散模型中的语言绑定:通过注意力图对齐增强属性对应
作者:Royi Rassin, Eran Hirsch, Daniel Glickman, Shauli Ravfogel, Yoav Goldberg, Gal Chechik
文章链接:https://arxiv.org/abs/2306.08877
项目代码:https://github.com/RoyiRa/Syntax-Guided-Generation






摘要:
文本条件图像生成模型通常会在实体及其视觉属性之间生成错误的关联。这反映了生成图像中相应元素的提示和视觉绑定中实体和修饰符的语言绑定之间的映射受损。举一个值得注意的例子,像“粉红色的向日葵和黄色的火烈鸟”这样的查询可能会错误地生成黄色向日葵和粉红色的火烈鸟的图像。为了解决这个问题,我们提出了 SynGen,一种首先在句法上分析提示以识别实体及其修饰符的方法,然后使用一种新的损失函数来鼓励交叉注意图与句法反映的语言绑定一致。具体来说,我们鼓励实体的注意力图与其修饰词之间有较大的重叠,而与其他实体和修饰词的注意力图则有较小的重叠。损失在推理过程中得到优化,无需重新训练或微调模型。人类对三个数据集(包括一组新的和具有挑战性的数据集)的评估表明,与当前最先进的方法相比,SynGen 有显着改进。这项工作强调了在推理过程中如何利用句子结构可以有效且显着地提高文本到图像生成的可信度。
多角度、真实用户标注,人大&华为推出可解释推荐数据集REASONER






点击卡片,关注「AiCharm」公众号
喜欢的话,请给我个在看吧!
