每日学术速递12.29

AiCharm

发布于 2024-01-04 12:17:18

1750

发布于 2024-01-04 12:17:18

文章被收录于专栏：AiCharm

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理

点击下方卡片，关注「AiCharm」公众号

Subjects: cs.CV

1.InstructVideo: Instructing Video Diffusion Models with Human Feedback

标题：InstructVideo：通过人类反馈指导视频扩散模型

作者：Hangjie Yuan, Shiwei Zhang, Xiang Wang, Yujie Wei, Tao Feng, Yining Pan, Yingya Zhang, Ziwei Liu, Samuel Albanie, Dong Ni

文章链接：https://arxiv.org/abs/2312.12490

项目代码：https://instructvideo.github.io/

摘要：

扩散模型已成为视频生成事实上的范例。然而，他们对质量参差不齐的网络规模数据的依赖往往会产生视觉上没有吸引力且与文本提示不一致的结果。为了解决这个问题，我们提出 InstructVideo 通过奖励微调来指导具有人类反馈的文本到视频扩散模型。InstructVideo 有两个关键要素：1）为了改善通过完整 DDIM 采样链生成而引起的奖励微调成本，我们将奖励微调重新定义为编辑。通过利用扩散过程来破坏采样视频，InstructVideo 只需要 DDIM 采样链的部分推断，降低了微调成本，同时提高了微调效率。2）为了缓解缺乏针对人类偏好的专用视频奖励模型的情况，我们重新利用了已建立的图像奖励模型，例如HPSv2。为此，我们提出了分段视频奖励（Segmental Video Reward）（一种基于分段稀疏采样提供奖励信号的机制）和时间衰减奖励（Temporal Attenuated Reward）（一种在微调期间减轻时间建模退化的方法）。大量的定性和定量实验验证了在 InstructVideo 中使用图像奖励模型的实用性和有效性，在不影响泛化能力的情况下显着提高了生成视频的视觉质量。代码和模型将公开。

2.StreamDiffusion: A Pipeline-level Solution for Real-time Interactive Generation

标题：StreamDiffusion：实时交互生成的管道级解决方案

作者：Akio Kodaira, Chenfeng Xu, Toshiki Hazama, Takanori Yoshimoto, Kohei Ohno, Shogo Mitsuhori, Soichi Sugano, Hanying Cho, Zhijian Liu, Kurt Keutzer

文章链接：https://arxiv.org/abs/2312.12491

项目代码：https://github.com/cumulo-autumn/StreamDiffusion

摘要：

我们介绍 StreamDiffusion，这是一种专为交互式图像生成而设计的实时扩散管道。现有的扩散模型擅长根据文本或图像提示创建图像，但在实时交互方面往往存在缺陷。这种限制在涉及连续输入的场景中变得尤为明显，例如元界、视频直播和广播等需要高吞吐量的场景。为了解决这个问题，我们提出了一种新颖的方法，将原始的顺序去噪转换为批量去噪过程。Stream Batch 消除了传统的等待和交互方法，并支持流畅和高吞吐量的流。为了处理数据输入和模型吞吐量之间的频率差异，我们设计了一种新颖的输入输出队列来并行化流处理。此外，现有的扩散管道使用无分类器引导（CFG），这需要额外的U-Net计算。为了减轻冗余计算，我们提出了一种新颖的无残差分类器引导（RCFG）算法，该算法将负条件去噪步骤的数量减少到只有一个甚至零。此外，我们引入了随机相似性过滤器（SSF）来优化功耗。与顺序去噪方法相比，我们的 Stream Batch 在不同去噪级别上实现了约 1.5 倍的加速。所提出的 RCFG 的速度比传统 CFG 高出 2.05 倍。结合所提出的策略和现有成熟的加速工具，使得图像到图像的生成在一台 RTX4090 上达到高达 91.07fps，将 Diffusers 开发的 AutoPipline 的吞吐量提高了 59.56 倍以上。此外，我们提出的 StreamDiffusion 还在 1 个 RTX3060 和 1 个 RTX3060 上显着降低了 2.39 倍的能耗。在一台 RTX4090 上分别为 99 倍。

3.Ponymation: Learning 3D Animal Motions from Unlabeled Online Videos

标题：Ponymation：从未标记的在线视频中学习 3D 动物动作

作者：Keqiang Sun, Dor Litvak, Yunzhi Zhang, Hongsheng Li, Jiajun Wu, Shangzhe Wu

文章链接：https://arxiv.org/abs/2312.13604

项目代码：https://keqiangsun.github.io/projects/ponymation/

摘要：

我们引入了 Ponymation，这是一种从原始、未标记的在线视频中学习铰接式 3D 动物运动生成模型的新方法。与现有的运动合成方法不同，我们的模型不需要任何姿势注释或参数形状模型来进行训练，并且纯粹是从从互联网获得的原始视频剪辑集合中学习的。我们以最近的一项工作 MagicPony 为基础，该工作纯粹从单个图像集合中学习铰接的 3D 动物形状，并将其扩展到两个方面。首先，我们不是在静态图像上进行训练，而是通过包含时间正则化的视频训练管道来增强框架，从而实现更准确和时间一致的重建。其次，我们通过时空转换器 VAE 学习底层铰接 3D 运动序列的生成模型，仅使用 2D 重建损失，而不依赖于任何显式姿势注释。在推理时，给定新动物实例的单个 2D 图像，我们的模型会重建一个铰接的、有纹理的 3D 网格，并通过从学习的运动潜在空间中采样来生成合理的 3D 动画。

喜欢的话，请给我个在看吧！

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2023-12-29，如有侵权请联系 cloudcommunity@tencent.com 删除

工作