每日学术速递12.9

AiCharm

发布于 2023-12-13 14:11:28

1660

发布于 2023-12-13 14:11:28

文章被收录于专栏：AiCharm

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理

点击下方卡片，关注「AiCharm」公众号

Subjects: cs.CV

1.CoDi-2: In-Context, Interleaved, and Interactive Any-to-Any Generation

标题：CoDi-2：上下文关联、交错和交互式任意生成

作者：Zineng Tang, Ziyi Yang, Mahmoud Khademi, Yang Liu, Chenguang Zhu, Mohit Bansal

文章链接：https://arxiv.org/abs/2311.18775

项目代码：https://codi-2.github.io/

摘要：

我们推出了 CoDi-2，一种多功能、交互式的多模态大语言模型 (MLLM)可以以任意对任意的方式遵循复杂的多模态交错指令、进行上下文学习 (ICL)、推理、聊天、编辑等。输入-输出模态范式。通过将模态与编码和生成的语言保持一致，CoDi-2 使大型语言模型 (LLM) 不仅能够理解复杂的模态交错指令和上下文示例，而且还能在连续特征空间中自回归生成接地且连贯的多模态输出。为了训练 CoDi-2，我们构建了一个大规模生成数据集，其中包含跨文本、视觉和音频的上下文多模式指令。CoDi-2 展示了多种多模态生成的零样本功能，例如上下文学习、推理以及通过多轮交互式对话生成任意模态的组合性。CoDi-2 在主题驱动图像生成、视觉转换和音频编辑等任务上超越了以前的特定领域模型。CoDi-2 标志着在开发全面的多模态基础模型方面取得了重大突破，该模型擅长解释上下文中的语言-视觉-音频交错指令并产生多模态输出。

2.GraphDreamer: Compositional 3D Scene Synthesis from Scene Graphs

标题：GraphDreamer：从场景图合成 3D 场景

作者：Gege Gao, Weiyang Liu, Anpei Chen, Andreas Geiger, Bernhard Schölkopf

文章链接：https://arxiv.org/abs/2312.00093

项目代码：https://graphdreamer.github.io/

摘要：

随着预训练的文本到图像的扩散模型变得越来越强大，最近人们努力从这些文本到图像的预训练模型中提取知识，以优化文本引导的 3D 模型。大多数现有方法都是从纯文本输入生成整体 3D 模型。当文本描述具有多个对象的复杂场景时，这可能会出现问题，因为矢量化文本嵌入本质上无法捕获具有多个实体和关系的复杂描述。整个场景的整体 3D 建模进一步阻碍了文本实体和概念的准确基础。为了解决这个限制，我们提出了 GraphDreamer，这是一种从场景图生成组合 3D 场景的新颖框架，其中对象表示为节点，它们的交互表示为边。通过利用场景图中的节点和边缘信息，我们的方法更好地利用了预训练的文本到图像扩散模型，并且能够在没有图像级监督的情况下完全解开不同的对象。为了促进对象关系的建模，我们使用带符号的距离场作为表示，并施加约束以避免对象的相互渗透。为了避免手动创建场景图，我们为 ChatGPT 设计了一个文本提示，以根据文本输入生成场景图。我们进行了定性和定量实验，以验证 GraphDreamer 在生成具有解开的对象实体的高保真合成 3D 场景方面的有效性。

3.VideoBooth: Diffusion-based Video Generation with Image Prompts

标题：VideoBooth：带有图像提示的基于扩散的视频生成

作者：Yuming Jiang, Tianxing Wu, Shuai Yang, Chenyang Si, Dahua Lin, Yu Qiao, Chen Change Loy, Ziwei Liu

文章链接：https://arxiv.org/abs/2312.00777

项目代码：https://vchitect.github.io/VideoBooth-project/

摘要：

文本驱动的视频生成见证了快速进步。然而，仅使用文本提示不足以描述准确符合用户意图的所需主题外观，尤其是对于定制内容创建而言。在本文中，我们研究了带有图像提示的视频生成任务，它提供了超越文本提示的更准确和直接的内容控制。具体来说，我们提出了一个前馈框架VideoBooth，具有两个专用设计：1）我们建议以从粗到细的方式嵌入图像提示。来自图像编码器的粗略视觉嵌入提供了图像提示的高级编码，而来自所提出的注意注入模块的精细视觉嵌入提供了图像提示的多尺度和详细编码。这两个互补的嵌入可以忠实地捕捉所需的外观。2）在精细级别的注意力注入模块中，多尺度图像提示被作为附加键和值输入到不同的跨帧注意力层中。这种额外的空间信息细化了第一帧中的细节，然后传播到其余帧，从而保持了时间一致性。大量实验表明，VideoBooth 在生成具有图像提示中指定主题的定制高质量视频方面实现了最先进的性能。值得注意的是，VideoBooth 是一个通用框架，其中单个模型适用于具有前馈传递的各种图像提示。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2023-12-09，如有侵权请联系 cloudcommunity@tencent.com 删除

编码