Subjects: cs.CV
1.Text2Layer: Layered Image Generation using Latent Diffusion Model
标题:Text2Layer:使用潜在扩散模型生成分层图像
作者:Xinyang Zhang, Wentian Zhao, Xin Lu, Jeff Chien
文章链接:https://arxiv.org/abs/2307.09781
摘要:
图层合成是业余爱好者和专业人士中最流行的图像编辑工作流程之一。受扩散模型成功的推动,我们从分层图像生成的角度探索图层合成。我们建议同时生成背景、前景、图层蒙版和合成图像,而不是生成图像。为了实现分层图像生成,我们训练了一个自动编码器,它能够重建分层图像并在潜在表示上训练扩散模型。所提出问题的好处之一是除了高质量图像输出之外还可以实现更好的合成工作流程。另一个好处是与单独的图像分割步骤生成的掩模相比,可以生成更高质量的图层掩模。实验结果表明,所提出的方法能够生成高质量的分层图像,并为未来的工作树立了基准。
2.NIFTY: Neural Object Interaction Fields for Guided Human Motion Synthesis
标题:NIFTY:用于引导人体运动合成的神经对象交互场
作者:Nilesh Kulkarni, Davis Rempe, Kyle Genova, Abhijit Kundu, Justin Johnson, David Fouhey, Leonidas Guibas
文章链接:https://arxiv.org/abs/2307.07511
项目代码:https://nileshkulkarni.github.io/nifty/
摘要:
我们解决了生成人类与场景中的物体交互的真实 3D 运动的问题。我们的关键思想是创建一个附加到特定对象的神经交互场,在给定人体姿势作为输入的情况下,输出到有效交互流形的距离。该交互场指导对象条件人体运动扩散模型的采样,以鼓励合理的接触和可供性语义。为了支持与几乎不可用的数据的交互,我们提出了一个自动化的合成数据管道。为此,我们建立了一个预先训练的运动模型,该模型具有人类运动基础知识的先验知识,以及从有限的运动捕捉数据中提取的特定于交互的锚定姿势。使用我们在生成的合成数据上训练的引导扩散模型,我们合成了坐下和举起多个物体的真实运动,在运动质量和成功完成动作方面优于其他方法。我们将我们的框架称为 NIFTY:用于轨迹合成的神经交互场。
Subjects: cs.RO
3.Towards A Unified Agent with Foundation Models
标题:迈向具有基础模型的统一代理
作者:Norman Di Palo, Arunkumar Byravan, Leonard Hasenclever, Markus Wulfmeier, Nicolas Heess, Martin Riedmiller
文章链接:https://arxiv.org/abs/2307.09668
摘要:
我语言模型和视觉语言模型最近在理解人类意图、推理、场景理解和文本形式的类似规划行为等方面表现出了前所未有的能力。在这项工作中,我们研究了如何在强化学习(RL)代理中嵌入和利用这些能力。我们设计了一个使用语言作为核心推理工具的框架,探索如何使智能体能够应对一系列基本的强化学习挑战,例如高效探索、重用经验数据、调度技能以及从观察中学习,而这些挑战传统上需要单独的、垂直设计的算法。我们在稀疏奖励模拟机器人操作环境中测试我们的方法,其中机器人需要堆叠一组物体。我们展示了探索效率和重用离线数据集中数据的能力相对于基线的显着性能改进,并说明了如何重用学到的技能来解决新任务或模仿人类专家的视频。