始智AI wisemodel.cn开源社区
始智AI wisemodel.cn社区将打造成huggingface之外最活跃的中立开放的AI开源社区。“源享计划”即开源共享计划,自研的开源模型和数据集,以及基于开源成果衍生的开源模型和数据集等,欢迎发布到wisemodel.cn社区,方便大家更容易获取和使用。
港中文、腾讯AI LAB和北大团队联合研发的DynamiCrafter模型,能够处理几乎所有类型的图像,并根据文本提示生成逼真的动态内容,用户不再受限于特定的场景或动作,只需提供适当的文本提示,DynamiCrafter就能够创造出各种动画效果,从而大大拓宽了AI视频生成的应用范围。DynamiCrafter系列模型已经由团队发布在始智AI wisemodel.cn开源社区平台,欢迎大家前往下载使用。
https://wisemodel.cn/models/Doubiiu/DynamiCrafter_1024(模型地址)
引言:探索文本驱动的图像动态化
在计算机视觉领域,将静态图像转化为动态视频一直是一个长期挑战。传统的图像动画化方法主要集中在自然场景的随机动态(例如云和流体)或特定领域的运动(例如人类头发或身体动作)上,这限制了它们在更一般视觉内容上的应用。为了克服这一限制,研究者们探索了为开放领域图像合成动态内容的方法,将它们转换成动画视频。这一过程的关键思想是利用文本到视频扩散模型的运动先验,通过将图像融入生成过程作为指导来实现。然而,保留输入图像中的视觉细节仍然是一个挑战。为了更精确地补充图像信息,研究者们进一步将完整图像与初始噪声结合起来输入到扩散模型中。实验结果表明,提出的方法能够产生视觉上令人信服且更符合逻辑和自然的动作,同时与输入图像的一致性更高。与现有方法的比较评估展示了本文方法的显著优势。这一方法被称为DynamiCrafter,它通过双流图像注入范式——文本对齐的上下文表示和视觉细节指导——确保视频扩散模型以互补的方式合成保留细节的动态内容。
图像动态化的传统方法与局限性
传统的图像动画化技术主要集中在为自然场景中的随机动态(例如云和流体)或特定领域的运动(例如人类头发或身体动作)生成动画。这些方法通常依赖于物理模拟或基于参考的方法,例如使用视频信号作为合成过程的引导。然而,这些方法对于特定对象类别的假设限制了它们在一般场景中的应用,例如开放域图像的动画化。例如,早期的物理模拟方法专注于模拟特定对象的运动,导致由于独立建模每个对象类别而具有低泛化性。参考信号驱动的方法虽然展示了更好的时间连贯性,但需要额外的引导,限制了它们的实际应用。此外,基于生成对抗网络(GAN)的方法可以通过扰动初始潜在变量或在潜在向量空间中进行随机漫步来生成帧,但生成的运动并不可信,因为动画帧只是可能外观空间的可视化,而没有时间意识。
总的来说,尽管现有方法取得了令人印象深刻的性能,但它们主要集中在特定领域的动画化上,特别是随机和振荡运动。此外,动画对象限制在特定类别,例如流体、自然场景、人类头发、肖像和身体。与之相反,该研究工作提出了一个通用框架,用于为具有广泛内容和风格的开放域图像生成动画,这是极具挑战性的,因为其复杂性和多样性。
视频扩散模型(VDMs)的进展
视频扩散模型(VDMs)最近在文本到图像(T2I)生成中展现了前所未有的生成能力。为了将这一成功复制到视频生成中,首个视频扩散模型(VDM)被提出,用于在像素空间中建模低分辨率视频。随后,Imagen-Video提出了有效的级联扩散模型,用于生成高清视频。为了降低训练成本,后续研究致力于将T2I转换为文本到视频(T2V),并在潜在或混合像素-潜在空间中学习VDMs。
尽管这些模型可以生成高质量的视频,但它们只接受文本提示作为唯一的语义引导,这可能是模糊的,可能无法准确反映用户的意图。类似于在T2I中添加控制,引入T2V的控制信号,例如结构、姿势和Canny边缘,已经越来越受到关注。然而,VDMs中的视觉条件,如RGB图像,仍然未被充分探索。最近,Seer、VideoComposer和I2VGen-XL等模型开始考虑图像条件,用于(文本-)图像到视频的合成。然而,它们要么专注于特定领域,例如室内对象,要么无法生成时间连贯的帧和真实的运动,要么无法保留输入图像的视觉细节,因为对输入图像的语义理解不足和信息丢失。此外,最近的专有T2V模型已被证明可以扩展到图像到视频的合成。然而,它们的结果很少遵循输入图像,并且遭受不真实的时间变化问题。本文的方法是基于文本条件的VDMs构建的,以利用它们丰富的动态先验为开放域图像生成动画,通过为更好的语义理解和输入图像的一致性引入定制设计。
创新:DynamicCrafter
1. 双流图像注入机制
DynamiCrafter方法的核心在于其创新的双流图像注入机制,该机制包括文本对齐的上下文表示和视觉细节指导两个部分。首先,为了引导视频生成过程,将输入图像投影到一个文本对齐的丰富上下文表示空间中。这一步骤通过一个特别设计的上下文学习网络完成,其中包括一个预训练的CLIP图像编码器来提取文本对齐的图像特征,以及一个可学习的查询转换器来进一步促进其适应扩散模型。这些丰富的上下文特征通过交叉注意层被模型使用,并通过门控融合与文本条件特征结合。这种学习到的上下文表示在一定程度上用文本对齐来交换视觉细节,有助于促进图像上下文的语义理解,从而合成合理和生动的动态内容。
为了补充更精确的视觉细节,进一步将完整图像与初始噪声串联起来,然后将其输入到扩散模型中。这种双流注入范式确保了视频扩散模型合成的动态内容既合理又符合输入图像的视觉特征。
2. 训练范式
DynamiCrafter的训练策略分为三个阶段:首先是训练图像上下文表示网络P,其次是将P适应T2V模型,最后是联合微调以增强视觉一致性。在第一阶段,训练一个上下文表示网络P,以便以与文本对齐的方式提供图像信息给T2V模型。由于P需要大量的优化步骤才能收敛,我们建议基于轻量级的T2I模型而不是T2V模型来训练它,这样可以让它专注于图像上下文学习。然后,通过联合训练P和T2V模型的空间层(与时间层相对)来将其适应T2V模型。在建立了与T2V兼容的上下文条件分支后,通过将输入图像与每帧噪声串联起来进行联合微调,以增强视觉一致性。在这里,只微调P和VDM的空间层,以避免破坏预训练T2V模型的时间先验知识,这可能会导致性能显著下降,与我们的初衷相悖。此外,随机选择一个视频帧作为图像条件,这是基于两个考虑:一是防止网络学习将串联图像映射到特定位置的帧的捷径;二是迫使上下文表示更加灵活,避免为特定帧提供过于僵硬的信息。
实验设置与评估指标
实验的数据集包括UCF-101和MSR-VTT,这些数据集被用来评估合成视频的质量和时间一致性。评估指标包括Fréchet Video Distance (FVD)和Kernel Video Distance (KVD),这些指标通过比较合成视频和真实视频的特征级相似性来评估视频质量。此外,为了进一步研究输入图像与动画结果之间的感知一致性,引入了Perceptual Input Conformity (PIC)指标,该指标通过DreamSim感知距离度量来计算。
基线方法包括VideoComposer和I2VGen-XL,这些方法在所有评估指标上的性能均不如本文提出的方法,除了在UCF-101上的KVD指标上。用户研究表明,本文的方法在运动质量、时间一致性和输入图像一致性方面均表现出显著的优越性。此外,本文的方法在与商业产品(如PikaLabs和Gen-2)的比较中,展现了可比的性能,同时在动态质量方面表现更佳。
定量与定性评估
在对DynamiCrafter的性能进行定量与定性评估时,本文采用了多个指标来全面衡量其在开放域图像动画化方面的表现。定量评估方面,使用了Fréchet Video Distance (FVD) 和 Kernel Video Distance (KVD) 两种度量方式。这两种指标通过比较合成视频与真实视频在特征层面的相似性来评价视频质量。在UCF-101和MSR-VTT这两个常用的基准测试集上,DynamiCrafter在所有评价指标上均显著优于现有的开源研究工作,如VideoComposer和I2VGen-XL,仅在UCF-101上的KVD指标上略逊一筹。
定性评估方面,还包括了两种专有商业产品,即PikaLabs和Gen-2,进行视觉比较。从Figure 4中的视觉比较结果来看,DynamiCrafter生成的视频在时间上更加连贯,更好地遵循了输入图像的条件。相比之下,VideoComposer在生成连贯视频帧方面存在挑战,后续帧往往会偏离初始帧,这是由于对输入图像的语义理解不足。I2VGen-XL虽然能生成在语义上类似输入图像的视频,但在保留复杂的局部视觉细节和生成美观结果方面存在不足。作为商业产品,PikaLabs和Gen-2能够生成高分辨率和长时长的视频,但Gen-2在内容变化(如“Windmill”案例)和内容漂移问题(如“The Beatles”和“Girl”案例)方面存在问题。PikaLabs在尝试产生较大动态时倾向于生成静态视频,并表现出模糊不清。
此外,还进行了用户研究,从49名参与者的反馈中可以看出,DynamiCrafter在动作质量、时间连贯性和输入图像视觉一致性方面表现出显著的优越性,甚至与商业产品相比也有可比的表现。
讨论:应用案例
DynamiCrafter在多个应用场景中展示了其强大的能力,包括故事叙述视频生成、循环视频生成和生成性帧插值等方面。
故事叙述视频生成:DynamiCrafter可以利用ChatGPT(配备DALL-E 3)生成的故事脚本和相应的镜头(图像)来生成故事叙述视频,通过使用DynamiCrafter对这些镜头进行动画化,可以生成与故事脚本相对应的视频。
循环视频生成:通过对框架进行轻微修改,本文的框架可以适应生成循环视频。具体来说,在训练期间提供x1和xL作为视觉细节指导,并在推理期间将它们设置为输入图像。此外,还尝试在VideoCrafter的更高分辨率(320×512)版本上构建这个应用。
DynamiCrafter的这些应用案例证明了其在多种场景中的适用性和灵活性,展现了其在开放域图像动画化领域的先进性和实用性。
https://arxiv.org/pdf/2310.12190.pdf(论文链接)
https://doubiiu.github.io/projects/DynamiCrafter(项目地址)
加盟入伙
始智AI wisemodel社区自2023年9月上线以来,取得了积极的进展,初步形成一定的影响力,为了加快公司发展,我们长期需要技术、运营等人才加盟(工作或者合伙创业),技术侧重在AI infra、后端开发,熟悉K8S、模型训练和推理等技术, 以及熟悉开发者生态运营的成员(根据个人意向可备注“求职”或“创业”)。
同时我们正在建设wisemodel社区的志愿团队,负责社区的运营和技术支持等工作,涉及模型、算法、开发、运营等相关的工作,在此有机会跟行业和学界的大牛等学习接触的机会,欢迎感兴趣的同学和老师等加入志愿者团队(备注“志愿者”)。
系统升级
始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立,旨在打造和建设中立开放的AI开源创新社区,将努力打造成“HuggingFace”之外最活跃的社区,汇聚主要AI开源模型和数据集等,欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者,以及政府部门、学会协会、联盟、基金会等,还有投资机构、科技媒体等,共同参与建设AI开源创新生态。
领取专属 10元无门槛券
私享最新 技术干货