首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >每日学术速递6.23

每日学术速递6.23

作者头像
AiCharm
发布2023-07-26 19:33:41
发布2023-07-26 19:33:41
3650
举报
文章被收录于专栏:AiCharmAiCharm
CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理

点击下方卡片,关注「AiCharm」公众号

Subjects: cs.CV

1.Infinite Photorealistic Worlds using Procedural Generation(CVPR 2023)

标题:使用程序生成的无限逼真世界

作者:Alexander Raistrick, Lahav Lipson, Zeyu Ma

文章链接:https://arxiv.org/abs/2306.09310

项目代码:https://infinigen.org/

摘要:

我们介绍了 Infinigen,它是自然世界逼真的 3D 场景的程序生成器。Infinigen 完全是程序化的:从形状到纹理的每项资产都是通过随机数学规则从头开始生成的,不使用外部源并允许无限变化和组合。Infinigen 提供广泛的自然界物体和场景覆盖,包括植物、动物、地形以及火、云、雨和雪等自然现象。Infinigen 可用于为广泛的计算机视觉任务生成无限多样的训练数据,包括对象检测、语义分割、光流和 3D 重建。我们希望 Infinigen 成为计算机视觉研究及其他领域的有用资源。请访问此 https URL 以获取视频、代码和预生成的数据。

2.Robot Learning with Sensorimotor Pre-training

标题:通过感觉运动预训练进行机器人学习

作者:Ilija Radosavovic, Baifeng Shi, Letian Fu, Ken Goldberg, Trevor Darrell, Jitendra Malik

文章链接:https://arxiv.org/abs/2306.10007

项目代码:https://robotic-pretrained-transformer.github.io/

摘要:

我们提出了一种自我监督的机器人感觉运动预训练方法。我们的模型称为 RPT,是一个在感觉运动标记序列上运行的 Transformer。给定一系列相机图像、本体感受机器人状态和过去的动作,我们将交错序列编码为标记,屏蔽掉随机子集,并训练模型来预测屏蔽掉的内容。我们假设,如果机器人能够预测缺失的内容,它就已经获得了一个能够使其行动的物理世界的良好模型。RPT 旨在对潜在的视觉表示进行操作,这使得预测易于处理,能够扩展到 10 倍大的模型,并在真实机器人上进行 10 Hz 推理。为了评估我们的方法,我们使用运动规划和基于模型的抓取算法的组合,在 9 个月内收集了 20,000 个真实世界轨迹的数据集。我们发现,对这些数据的预训练始终优于从头开始的训练,导致块堆叠任务提高 2 倍,并且具有良好的缩放特性。

3.Linguistic Binding in Diffusion Models: Enhancing Attribute Correspondence through Attention Map Alignment

标题:扩散模型中的语言绑定:通过注意力图对齐增强属性对应

作者:Royi Rassin, Eran Hirsch, Daniel Glickman, Shauli Ravfogel, Yoav Goldberg, Gal Chechik

文章链接:https://arxiv.org/abs/2306.08877

项目代码:https://github.com/RoyiRa/Syntax-Guided-Generation

摘要:

文本条件图像生成模型通常会在实体及其视觉属性之间生成错误的关联。这反映了生成图像中相应元素的提示和视觉绑定中实体和修饰符的语言绑定之间的映射受损。举一个值得注意的例子,像“粉红色的向日葵和黄色的火烈鸟”这样的查询可能会错误地生成黄色向日葵和粉红色的火烈鸟的图像。为了解决这个问题,我们提出了 SynGen,一种首先在句法上分析提示以识别实体及其修饰符的方法,然后使用一种新的损失函数来鼓励交叉注意图与句法反映的语言绑定一致。具体来说,我们鼓励实体的注意力图与其修饰词之间有较大的重叠,而与其他实体和修饰词的注意力图则有较小的重叠。损失在推理过程中得到优化,无需重新训练或微调模型。人类对三个数据集(包括一组新的和具有挑战性的数据集)的评估表明,与当前最先进的方法相比,SynGen 有显着改进。这项工作强调了在推理过程中如何利用句子结构可以有效且显着地提高文本到图像生成的可信度。

推荐阅读

多角度、真实用户标注,人大&华为推出可解释推荐数据集REASONER

2023-06-21

每日学术速递6.21

2023-06-21

CVPR 2023 | 会模仿笔迹的AI,为你创造专属字体

2023-06-20

每日学术速递6.20

2023-06-20

AI视频「闪烁」难题攻破!轻松改变视频风格,北大校友一作

2023-06-19

点击卡片,关注「AiCharm」公众号

喜欢的话,请给我个在看吧!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-06-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AiCharm 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档