前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >TikTokDance5K 数据集助力 DreamDance,利用 2D 姿态丰富 3D 线索,仅用骨架动作序列动画化人体图像!

TikTokDance5K 数据集助力 DreamDance,利用 2D 姿态丰富 3D 线索,仅用骨架动作序列动画化人体图像!

作者头像
AIGC 先锋科技
发布2025-02-20 00:02:02
发布2025-02-20 00:02:02
960
举报
文章被收录于专栏:AIGC 先锋科技AIGC 先锋科技

在本文中,作者提出了一种名为DreamDance的新方法,仅使用骨架动作序列作为条件输入来动画化人体图像。现有方法在生成连贯且高质量的内容方面面临挑战,且难以做到高效和用户友好。 具体而言,依赖仅有2D姿态引导的基本方法缺乏3D信息的 Prompt ,导致结果不尽如人意;而采用3D表示作为引导的方法虽然可以实现更高质量的结果,但过程繁琐且耗时。 为了克服这些局限性,DreamDance通过引入高效扩散模型,从2D姿态中丰富了3D几何线索,从而实现了多种引导下的高质量人体图像动画化。作者的关键洞察是,人体图像自然地表现出多个层次的相关性,从粗略的骨架姿态逐渐过渡到精细的几何线索,并进一步过渡到显式的外观细节。 捕捉这些相关性能够丰富引导信号,促进帧内连贯性和帧间一致性。 具体来说,作者构建了一个包含5000个高质量舞蹈视频的TikTokDance5K数据集,每个视频都有详细的帧标注,包括人体姿态、深度和法线图。接下来,作者介绍了互匹配几何扩散模型,用于生成丰富的细化深度和法线图以提供更佳的引导。 最后,跨域控制器结合多层次引导,利用视频扩散模型有效动画化人体图像。大量的实验表明,作者的方法在动画化人体图像方面达到了最先进的性能。 网页:https://pang-yatian.github.io/Dreamdance-webpage/

1. Introduction

人类图像动画是指根据一系列动作控制信号,从静态的人类图像生成动态且逼真的视频。该领域由于其在电影制作、社交媒体和在线零售等多个行业的广泛应用而受到了广泛关注。尽管生成式人工智能迅速发展,但人类图像动画仍然具有挑战性,因为它需要对帧内连贯性和帧间一致性有全面的理解。

近年来,扩散模型[25, 61]在图像和视频生成中展现了显著潜力,为人类图像动画任务开启了新的可能。诸如Disco [68]和Dreampose [36]等先驱工作通过利用输入图像和姿态条件顺序生成目标帧。然而,由于缺乏时间学习能力,这些方法往往会产生闪烁伪影并在帧间存在时间不一致性。为解决这些问题,较新的方法如MagicAnimate [79]和AnimateAnyone [29]将时间注意力模块融入扩散网络以增强时间连贯性。尽管这种改进有所帮助,但它们的生成质量仍然受限于粗糙的控制条件,导致视觉输出不一致且不协调。为了进一步提高控制精度,Champ [96]引入了3D参数化人体模型SMPL [42]来提供额外指导。首先生成SMPL运动,然后将其渲染到正常的深度图上,这种方法将几何信息与姿态序列结合用于人类图像动画。然而,基于SMPL的方法也存在明显缺点。

首先,生成SMPL运动过程复杂且不够用户友好,通常依赖现有视频的预测,这相比于使用开源工具(如GUI [46])直观操作姿态而言,在编辑性和灵活性方面更具局限性。其次,SMPL和姿态模型之间的独立性可能导致控制信号的对齐问题,进而影响姿态序列的精确遵守。此外,SMPL的渲染主要强调身体几何特征而忽略了重要的视觉细节,如服装和头发,这些细节可以导致时间上的不一致性以及视觉上的不协调。此外,这些方法基于图像扩散模型作为基础模型,缺乏强有力的先验时间信息,导致生成的视频在时间一致性方面表现不佳。作者在图1中总结了现有的方法。

为此,作者提出了一种名为DreamDance的统一框架,该框架仅使用骨架动作序列作为原始指导信号来动画化人类图像。作者的关键见解在于识别人类图像中固有的多级关联性,从粗略的骨架姿势扩展到精细的几何线索,进一步扩展到显式的外观细节。捕捉这些关联能够丰富指导信号,从而增强动画过程中的帧内一致性与帧间一致性。为了实现这一点,作者首先构建了一个数据集TikTok-Dance5K,其中包含5,000个高质量的舞蹈视频,每个视频的每一帧都标注了人体姿态、深度图和法线图。基于此数据集,作者提出了一个新型框架,包含两个扩散模型。具体而言,Mutually Aligned Geometry Diffusion Model生成详细的深度图和法线图,以丰富指导信号。为了确保生成指导信号的稳健性和有效性,作者引入了几何注意力模块和时间注意力模块,这些模块能够在模态和时间维度上对齐指导信号。借助丰富的几何线索,Cross-Domain Controlled Video Diffusion Model利用跨域控制器整合多个 Level 的指导信号,以高质动画化人类图像。此外,作者实现了一个鲁棒性的条件方案,以减少作者在两阶段生成 Pipeline 中累积错误的影响。

大量实验表明,DreamDance在动画化人类图像方面达到了最先进的性能,与现有方法相比,在视觉一致性和时序一致性方面取得了显著提升。作者再次在图1中进行了对比演示,并展示了通过消除复杂而刚性的3D模型的需求,作者的方法提供了更大的灵活性、易用性和动画过程中的更精细控制,从而确立了其作为动画化人类图像的高效解决方案的地位。

总结来说,本工作主要贡献如下:

  1. 作者构建了TikTok-Dance5K数据集,包含5000个高质量的人体舞蹈视频,并附有全面的视觉标注。该数据集将公开发布,以支持相关领域的进一步研究。
  2. 作者提出了Mutually Aligned Geometry Diffusion模型,该模型生成详细的深度图和法线图,以丰富引导信号。为了保证鲁棒性,作者在模型中加入了几何信息和时序注意力模块,这些模块在跨模态和时序维度上对齐几何信息。
  3. 作者引入了跨域控制视频扩散模型,该模型利用跨域控制器整合多层次的引导信息,用于高质量人体图像动画化。此外,一种稳健的条件方案进一步减轻了两阶段生成pipeline中误差累积的影响。
  4. 作者的大量实验表明,该框架在人体图像动画化方面达到了业界最佳性能,相比现有方法,在视觉连贯性和时间一致性方面设立了新标杆。

2. Related Works

2.1. Diffusion Models for Image Generation

扩散模型在给定各种条件生成图像方面取得了显著成功。特别是Stable Diffusion [53]展示了其通过文本 Prompt 作为条件输入生成高质量图像的能力。为了在生成过程中引入更多的控制,ControlNet [92]提出训练一个预训练扩散模型的额外副本,以整合额外的控制信号,如姿态、深度和Canny边缘。随后,许多研究工作[45, 57, 84]提出了融入更复杂的控制信号的方法,以增强图像生成过程中的可控性。在本研究中,作者重点关注使用姿态作为控制信号,并 Proposal 生成精细粒度的深度图和法线图来提供补充指导。一些研究工作[41, 47, 51]提出使用扩散模型生成几何图,以提高生成的3D几何的质量。其他工作[16, 37]则提出利用扩散模型进行深度和法线估计任务。为了生成精确的人类图像,Hyperhuman [40]提出了一种潜在结构扩散模型,以联合捕捉人类图像外观及其几何关系。他们的扩散模型包含不同的专家分支,并仅支持文本作为输入条件。在作者的工作中,作者通过引入几何注意力机制并利用参考网络实现精细粒度的参考图像控制,提出了一种新颖的几何扩散模型。作者还结合了时间注意力机制,以便沿时间维度进行几何生成。

2.2. Diffusion Models for Video Generation

图像生成中扩散模型的巨大潜力激发了将其应用于视频生成及其他领域的研究热潮。早期工作侧重于通过引入时间模块来扩展基于图像的扩散模型,以应对视频序列的动力学,并生成视频。视频LDM [5]首先在图像上进行预训练,然后通过加入时间层对模型进行微调以处理视频数据。Animatediff [21]将额外的运动模块添加到预训练的文本到图像的扩散模型中,并使用视频数据对其进行训练。稳定视频扩散(SVD) [4]是一种用于高分辨率图像到视频生成的潜在视频扩散模型。作者识别并评估了视频扩散模型成功训练的三个不同阶段,并探索了一种统一的数据整理策略。在本文中,作者构建了SVD-ControlNet,并以稳定视频扩散作为基模型,因为与从头开始训练或从图像扩散模型适应相比,它具有更强的时间先验和时间一致性。

2.3. Diffusion Models for Human Image Animation

基于静态人体图像和一系列控制信号生成动态和逼真人运动视频的人像动画旨在实现这一目标。近期的研究利用成功的扩散模型来完成这一任务。DreamPose [36] 和 DIsCO [68] 修改了扩散模型,以结合参考图像和控制信号的信息。然而,它们是以逐帧的方式进行动画处理,这导致时间一致性缺失。随后的工作包括 AnimateAnyone [29]、MagicAnimate [79] 和 MagicPose [9] 提出了一种类似框架,利用参照网络注入人体特征,并使用运动模块增强时间一致性。最近的作品 Champ [96] 引入了使用 3D 参数化人体模型 SMPL 的方法,通过从 SMPL 动作中生成法线图和深度图来为人体图像动画提供更多条件。然而,这种方法存在一些局限性,包括创建 SMPL 动作的复杂性、SMPL 和姿态模型之间潜在的对齐偏差,以及忽略了重要的细节如穿着和发型,导致生成的内容不够连贯。作者的方法通过提出一种相互对齐的几何扩散模型来解决这些限制,该模型能够共同捕捉人体图像外观和几何关系,从而达到高效且高质量的效果。

3. Preliminaries and Problem Formulation

3.1. Diffusion Models

扩散模型,如在先前的工作[25, 60]中所介绍,旨在通过学习一个概率模型 来逼近数据分布 。 和随机潜在变量 的联合分布通过一个反向马尔可夫链定义: 。

其中, 被建模为标准正态分布,并且转移核表示为: 。

同时,也构造了一个正向马尔可夫链 ,使得 可以定义为: 。

其中噪声预测器 是通过对损失函数进行训练得到的。损失函数为: ,当 为常数且 从标准正态分布中抽取时。

在扩散模型的基础上,潜在扩散模型[53] 进一步通过预训练的变分自编码器 (VAE)[12] 将数据映射到一个低维潜在空间,然后在此潜在空间上应用扩散过程。这显著降低了计算成本,并使这些模型能够处理更大的数据集和更复杂的任务,例如视频和三维生成。在作者的工作中,作者使用这些先进的潜在扩散模型及其变体对扩散模型进行微调,以实现特定的目标。

3.2.Problem Formulation

给定一个人类图像 (X) 和一系列驾驶姿态序列 (p_{1:T}),作者的目标是生成一段人类动画视频 (Y_{1:T})。作者提出了一种从粗到细的方式捕捉这些关联,既增强了每一帧内部的一致性,也保证了不同帧之间的连贯性。具体来说,首先使用一种互匹配几何扩散模型 (G_{1}),在低分辨率空间中联合生成细粒度的图像 (x_{t})、深度 (d_{t}) 和法线图 (n_{t}),从而为每一帧 (t) 提供丰富的指导信息。然后,利用一种高分辨率跨域控制视频扩散模型 (G_{2}) 以及一个跨域控制器,综合多种指导信息来驱动人类图像的动画化。需要注意的是,在第一阶段生成的低分辨率RGB图像 (x_{1:T}) 不再使用。总体流程可以表示为:

4.Method: DreamDance

作者提出DreamDance,这是一种统一框架,用于实现高精度和精细控制的人像动画生成。根据第3.2节中的问题表述,如图2所示,作者的方法分为两个阶段。首先,给定参考图像和目标姿态,互匹配几何扩散模型生成目标法线图和深度图,以及RGB图像,从而丰富几何线索作为指导。随后,跨域受控视频扩散模型利用跨域控制器整合多个层次的指导,以实现高质量的人像动画生成。

4.1. Mutually Aligned Geometry Diffusion Model

为了从参考图像中丰富目标姿态的几何信息,作者的目标是从粗略 Level 的姿态骨架过渡到精细的空间几何结构来建立联系。然而,几个挑战随之而来。1) 原始的扩散模型是基于RGB图像进行训练的,而这些图像与几何表示存在显著差异,这使得在统一的扩散过程中建模这些不同的模态变得困难。2) 虽然目标姿态提供了基本的人体结构,但它缺乏来自参考图像的详细几何和外观信息。3) GT RGB图像与其几何特征天然对齐,因此在整个生成过程中需要保持这种对齐以确保一致性和准确性。

统一扩散过程建模。如图2(a)所示,作者建模了一个统一的扩散过程,该过程联合生成深度 (d) 和法线图 (n),以及RGB图像 (x),所有这些都与目标姿态 (\mathbf{p}) 对齐,基于参考图像 (i)。统一的扩散模型可以通过简化的目标进行训练:

其中, 是独立的高斯噪声,而 是采样的时间步,决定了添加噪声的规模。含噪的潜在变量通过以下方式获得:,并将它们在批量维度上进行拼接,形成统一的含噪潜在变量 ,然后将其送入去噪UNet以预测所添加的噪声。鉴于原始的扩散模型在图像域中具有较强的先验知识,这与深度图和平面法线图的分布有所不同,作者向UNet结构中引入了领域嵌入。这一做法旨在通过更好地适应每个领域的独特特征来简化训练过程。具体来说,作者使用一个one-hot向量来指定每个样本的领域,并将其编码为位置编码形式。所得出的领域嵌入被添加到UNet中的时间嵌入中。实验证明,引入领域嵌入可以提高训练的稳定性并加快收敛速度。

基于参考图像和目标姿态的控制。受[29]的启发,作者引入了一个参考UNet以提供详细的参考图像特征指导。去噪UNet中的空间注意力机制被修改为,

其中, 是带噪特征, 是来自参考 UNet 的详细注入特征,这些特征沿序列维度连接。此外,为了用目标姿态指导扩散模型,作者采用了一个轻量级的卷积姿态编码器,并在不使用卷积投影的情况下对姿态嵌入进行编码,参照 [29, 96]。该姿态嵌入在 UNet 的 conv_in 层之后添加到带噪的潜在特征中。

几何对齐与几何注意机制。作者现在将原始扩散模型扩展到联合生成法线图和深度图,并与目标姿态和参考图像在语义上保持一致的同时生成RGB图像。然而,这些生成输出之间并没有内在的一致性保证。为了解决这一问题,作者提出了一种几何注意模块,在扩散过程中对几何表示和RGB图像进行对齐,以确保生成内容的一致性。该几何注意机制基于自注意力机制进行修改,其中每种不同模态的 Query 、 Key和Value 计算如下:

其中,ConCat()指的是沿序列维度的连接操作。几何注意力模块增强了相互引导的几何一致性,确保生成的几何信息保持稳定可靠。此外,作者还引入了时间注意力模块以平滑生成的内容,促进时间一致性。通过在模态和时间维度上对齐几何信息,作者为后续视频生成阶段的有效控制奠定了坚实的基础。

训练策略。训练过程分为三个步骤。首先,作者禁用几何和时间注意力模块,使用不同模态的随机输入来训练模型。这使得模型能够在不考虑跨模态和时间交互的复杂性的情况下,独立地从每个模态中学习。接着,激活几何注意力模块,并冻结其他模块,专注于使不同模态对齐。最后,激活时间注意力模块并冻结其他模块,以确保时间一致性。这一三步策略通过逐步引入多模态对齐和时间一致性的复杂性来稳定训练过程,从而保证了稳定的收敛性。在这个阶段,所有训练步骤都采用相对较低的分辨率来进行,以有效平衡效率与性能。作者通过实验发现,这种策略不仅能稳定训练过程并加速收敛,还能使性能损失降至最低,相较于高分辨率训练,其性能损失可以忽略不计。

4.2. Cross-domain Controlled Video Diffusion Model

在丰富的指导信号(即深度图和法线图)与目标姿态相互一致且对齐的情况下,作者现在旨在将这些各种类型的指导信息整合到视频扩散模型中,以驱动人类图像的动画效果。需要注意的是,作者摒弃了上一阶段生成的低分辨率RGB图像。

跨领域控制器 如图2(b)所示,作者引入了一个跨领域控制器来整合多种指导信号,从而实现高保真度和精确的人像动画。具体来说,每个控制信号模态——例如深度、法线图和姿态——首先通过一系列轻量级、领域特定的卷积层嵌入到特征空间中。这一步骤捕捉了每个模态的核心特征。接下来,作者采用类似于方程5中描述的几何注意力机制来整合这些特征向量,确保不同模态间的和谐互动。这一统一的指导特征驱动着动画过程的一致性和精确性。形式上,每一帧的指导特征通过获得,其中,且分别为领域的特定卷积编码器。随后,该指导特征被添加到SVD ControlNet的conv_in层之后的噪声潜在特征中。

为了有效控制视频扩散模型的生成过程,作者在SVD模型上对ControlNet [92]进行了适应性改进。具体而言,SVD ControlNet冻结了预训练SVD的所有参数,并保留了原网络中选择层的一个可训练副本。这两个分支通过零初始化的卷积层连接起来,在训练过程中逐步融入可控特性。通过实验,作者发现使用SVD ControlNet相比对整个网络进行微调具有更稳定的训练效果。

稳健条件设置。由于第一阶段生成的深度和法线条件可能包含伪影,错误累积在作者的两阶段Pipeline中可能会成为一个潜在问题,从而可能导致性能下降。为了解决这个问题,作者提出了一种简单有效的dropout策略来增强控制信号的稳健性。具体而言,作者在时间维度和模态之间随机用零值图像替换控制信号,促使模型更多地利用其他模态和时间帧中的线索而非严格依赖于条件。这种方法在推理过程中显著提高了稳健性,并特别有效于提升时间一致性。

5. Experiments

5.1.TikTok-Dance5K Dataset

高质量的大规模数据集对于视频生成任务至关重要。作者构建了一个包含约5千个视频的人类舞蹈数据集,以促进高保真人类图像动画。所有样本均来源于TikTok,并经过手动清洗处理。作者预处理该数据集以获取伪GT姿态、法线和深度图[2, 81, 82]。该数据集将向公众提供。

5.2. Implementation Details

作者的实验使用了8块NVIDIA A800 GPU进行。在第一个阶段,作者使用Stable Diffusion v1.5初始化参考UNet和去噪UNet,训练分辨率设定为。对于第二个阶段的视频扩散模型,作者使用SVD v1.1进行初始化,并以批次大小8训练50,000步。训练视频被裁剪并调整至分辨率,由16帧组成。关于更多训练设置的详细信息,请参见附录。

5.3. Main 1Results

Baseline 方法。MRAA [58] 是一种基于生成对抗网络(GAN)的先进动画方法,通过估计驱动序列的光学流来扭曲源图像,并使用 GAN 模型修复被遮挡的区域。DisCo [68] 是一种基于扩散模型的动画 Baseline 方法,它将姿态、身体和背景分离条件模块整合到预训练的扩散模型中,用于人类图像动画。MagicAnimate [79] 和 AnimateAnyone [29] 是基于扩散模型的人类图像动画方法,它们利用二维控制信号作为指导。Champ [96] 基于 AnimateAnyone 开发,并构建了一个 3D 表现形式,例如 SMPL,用于建模控制序列。SMPL 表现形式渲染为深度图、法线图以及语义图。然后,结合 2D 骨骼姿态,多种控制信号被融合,共同引导动画生成过程。

评价指标。作者采用之前工作的评估方法,使用L1误差、结构相似性指数(SSIM)[73]、学习感知图像块相似性(LPIPS)[93] 和 峰值信噪比(PSNR)[28] 来评估单帧图像质量。为了评估视频保真度,作者使用弗雷彻入射距离与弗雷彻视频距离(FID-FVD)[3] 和 弗雷彻视频距离(FVD)[65]。

在基准数据集上的评估。作者在基准数据集TikTok数据集[32]上评估了作者提出的方法,并在表1a中报告了相关指标。作者的方法在与 Baseline 方法对比时显示出了最先进的性能,实现了更低的L1损失、LPIPS、FID-VID、FVD分数以及更高的PSNR和SSIM值。作者还在图3中提供了定性的结果。

作者提出的数据集上的评估。为了进一步评估作者提出的方法,作者在所提数据集的测试集上进行了实验。作者在表1b中报告了评估指标,并在图3中展示了定性的比较结果。与各种 Baseline 方法相比,作者的方法取得了最先进的性能。作者在图4中展示了更多的定性结果,这些结果包括生成的法线和深度指导信息。作者观察到,由于缺乏足够的指导信息,AnimateAnyone [29] 和 MagicAnimate [79] 均产生了低质量的结果,而 Champ [96] 无法生成准确的细节,尤其是在手部区域。这是因为 SMPL 在重构复杂的手部姿势方面存在困难,导致生成的指导图渲染不够精确。

在未见领域图像的动画展示中,作者在图5中展示了使用获得的法线和深度条件对未见过领域的图像进行动画化的效果。这些结果证明了所提出方法的泛化能力。

Cross-ID 动画。作者将具有相同姿态序列的不同人体图像进行动画处理,并展示在图6中。

推理效率分析。表2展示了作者提出方法的推理效率分析。作者报告了仅给出2D姿态骨架时生成所有引导图的平均时间消耗。结果表明,作者的方法在时间消耗方面与Champ [96]相当。考虑到Champ在生成引导图时需要经过多个步骤,包括3D预测、3D平滑、形状转换和渲染,而作者使用单一扩散模型生成所有引导图的方法更加高效且用户友好。

5.4.Ablationstudies

不同条件的影响。作者对视频扩散模型中包含的不同条件变体进行了全面实验,以展示所提方法的有效性。如表3a所示,作者将方法d与不同的变体a)、b)、c)进行比较,结果显示,多种条件的结合能够实现稳健且最优的效果。定性比较见图7。作者发现,在缺乏深度图或法线图的情况下,生成的质量明显存在问题。而原始提供的姿态图则为面部和手部区域提供了精细的指导,提升了生成质量。

几何注意力机制在条件融合中的应用。作者进行了消融实验以评估所提出的几何注意力机制在条件融合中的有效性。定量比较见表3b,展示了包含几何注意力显著提升性能。此外,图8中的定性比较进一步说明了其优势。作者观察到几何注意力有效地整合了多种类型的条件,从而提高了生成的鲁棒性和质量。

参考

[0]. DreamDance: Animating Human Images by Enriching 3D Geometry Cues from 2D Poses .

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-02-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AIGC 先锋科技 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. Introduction
  • 2. Related Works
    • 2.1. Diffusion Models for Image Generation
    • 2.2. Diffusion Models for Video Generation
    • 2.3. Diffusion Models for Human Image Animation
  • 3. Preliminaries and Problem Formulation
    • 3.1. Diffusion Models
    • 3.2.Problem Formulation
  • 4.Method: DreamDance
    • 4.1. Mutually Aligned Geometry Diffusion Model
    • 4.2. Cross-domain Controlled Video Diffusion Model
  • 5. Experiments
    • 5.1.TikTok-Dance5K Dataset
    • 5.2. Implementation Details
    • 5.3. Main 1Results
    • 5.4.Ablationstudies
  • 参考
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档