首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Adobe Research与Firefly团队率先将视频生成技术应用于Firefly Video和 Premiere Pro。

在快速发展的人工智能领域,生成高质量的视频内容对创作者来说变得越来越重要。去年秋天,Adobe 发布了全新的Firefly 视频模型,这是一项测试版技术,能够生成富有创意、切题且高质量的视频内容,Adobe Research 做出了重要贡献。得益于摄像机动态性能的进步,这项技术使创作者能够创作出富有想象力且具有电影般动态效果的视频。

此外,Adobe Research 与 Firefly 团队携手合作,在 Premiere Pro 中开发了全新的生成式扩展(GenExtend) 功能,该功能可生成新的视频帧,并添加到现有视频的开头或结尾。秉承 Adobe 对道德 AI 的承诺,Firefly Video 是首个专为商业用途而设计的公开视频模型。

新颖的架构、改进的文本提示匹配和逼真的场景动态

Adobe Research 基础模型团队在文本转视频生成方面取得的成就是这一发展历程中的一个重要里程碑。该团队引入了一种新颖的 Transformer 架构,重新设计了变分自编码器 (VAE),并增强了场景动态的学习能力。这些创新极大地提升了文本转视觉的匹配能力(即系统将文本提示与视频中的视觉结果进行匹配的能力),并增强了生成具有逼真摄像机运动和逼真场景动态的视频的能力。该模型现已成为 Firefly 视频模型和 GenExtend 测试版的基础。

该团队的全新 Transformer 架构通过显著提升文本到视觉的对齐能力,直接解决了文本到视频生成的挑战。这种扩散 Transformer 架构采用独特的设计,增强了跨不同模态的信息融合,使文本提示能够反映在更相关的视频内容中。这项增强功能使模型能够生成连贯、逼真的视频,即使输入提示冗长且详细,也能与视频紧密契合。最终呈现的内容既准确又引人入胜。

重新设计的 VAE(系统内部的视频数据表示)进一步增强了模型的功能。凭借其简化的结构,新型 VAE 能够无缝地表示图像和视频数据,同时保持高保真度并保留复杂的细节。这种设计还促进了从图像域到视频域的高效知识迁移,确保了生成视频的一致性和质量。结合团队提出的全新训练策略,该模型能够高效地学习视觉概念并捕捉高质量的动态图像。

此外,该技术由定制的基础设施支持,用于大规模管理和服务数据。这为系统训练提供了更好的高吞吐量解决方案,从而显著提高了训练效率。

通过创新 Transformer 架构和 VAE,并引入改进的训练方法,基础模型团队提升了文本转视频生成的能力。他们的工作不仅增强了现有的可能性,也为视频制作领域的创意和专业应用铺平了道路。

Premiere Pro 中的无缝 GenExtend

Premiere Pro 中全新的生成式扩展 (Generative Extend) 功能基于全新的转换器架构,是 Adobe 首次推出可集成到现有创意视频工作流程的视频生成功能。该功能通过生成新的视频帧,将视频片段的起始或结尾处延长两秒。与文本转视频不同,GenExtend 的挑战在于无缝并置生成和采集的内容。即使两者之间最细微的差异也可能导致时间相干性伪影,例如爆音或抖动。

Firefly Video 与 Adobe Research 视频人工智能实验室合作成立的团队接受了这一挑战。生成的视频通常先进行高度压缩,压缩到潜在空间,然后再解码回来进行训练。然而,当原始内容和生成内容直接并列放置时,压缩后的差异会非常明显。此外,该技术还会对原始视频进行下采样,生成额外的帧,然后使用生成式超分辨率算法对其进行上采样,这又带来了一个问题。这种上下采样的过程可能会导致高频纹理的丢失,在原始帧和生成帧之间切换时,画面会呈现出突然模糊的效果。  

GenExtend 的开发团队通过参考引导解码和超分辨率技术解决了这个问题。他们修改了将潜在表征转换为视频帧并对生成的视频帧进行超分辨率处理的模型,并考虑了额外的输入:参考视频帧。然后,在解码和超分辨率处理过程中,该方法使用最近的原始视频帧作为参考,显著提高了生成视频的视觉质量和无缝衔接性。最后,该技术使用传统的对比度和亮度归一化技术,进一步对齐生成的视频和原始视频。 

解决了无缝衔接的问题后,团队又遇到了一个问题——有时生成的两秒视频过于新颖,引入了夸张的画面和动作。视频创作者通常只想延长视频,添加一个节拍或淡入淡出,而不会添加新的元素。为了避免生成的视频中出现过多的新颖元素,团队使用精心筛选的数据对生成模型进行了微调,使视频的最后(或最初)几秒尽可能保持一致且可预测。这种筛选有助于训练模型避免新颖内容,并生成与原始视频无缝融合的扩展内容。 

Adobe 在文本转视频生成方面的进步以及 GenExtend 技术的推出,赋予用户以全新方式进行创作的能力。随着人工智能革命的持续加速,Adobe 的开创性工作确保创作者拥有所需的工具,能够创作出高质量、富有想象力的视频内容,同时遵守人工智能的道德规范。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OwOuTRMd2tMl0F2iwbRBkqyg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券