大杯Sora，两分钟1200帧的长视频生成器StreamingT2V将开源！

文章来源：企鹅号 - 前沿科技分享圈

prompt：Wide shot of battlefield, stormtroopers running...

两分钟1200帧的长视频生成器StreamingT2V的开源革命

堪称大杯Sora，PicsArt AI研究团队推出了名为StreamingT2V的长视频生成模型。这一技术的出现，标志着文本到视频内容生成领域迈入了一个新的里程碑。StreamingT2V不仅能够根据文本描述生成长视频，而且能够保持视频的时间连贯性和高质量图像帧，其生成的视频长度可达到1200帧，即两分钟的播放时长。

创新的技术突破

StreamingT2V技术的关键在于引入了条件注意模块（CAM）和外观保持模块（APM），以及随机混合方法。这些技术的结合使得模型能够生成具有时间一致性的长视频，同时保持与文本描述的紧密对齐。在以往的技术中，生成的视频通常长度有限，而StreamingT2V的出现打破了这一限制，实现了长视频的流畅生成。

显著的性能提升

根据PicsArt AI研究团队的介绍，StreamingT2V在多个方面实现了性能的显著提升。首先，它能够生成长视频，远超传统模型通常生成的短视频长度。其次，生成的视频帧之间具有平滑的过渡和一致性，避免了生成长视频时常见的硬切换或不连贯现象。此外，该模型注重帧级别的图像质量，保证每一帧的图像都能保持清晰和细腻。

工作流程的优化

StreamingT2V的工作流程经过精心设计，分为初始化阶段、流式生成阶段和流式细化阶段。在初始化阶段，使用预训练的文本到视频模型来合成一个初始的视频块。流式生成阶段则是自回归的长视频生成过程，使用CAM和APM来生成长视频的后续帧。最后，在流式细化阶段，使用高分辨率的文本到视频模型对生成的视频进行自回归增强，通过随机混合方法提高视频的整体质量和分辨率。

prompt: Marvel at the diversity of bee species...

开源代码的影响

StreamingT2V的代码即将开源，这将进一步推动该技术的发展和应用。开源代码意味着全球的研究者和开发者都可以访问和使用这一技术，促进了技术的交流和创新。开源也将使得StreamingT2V得到更广泛的测试和改进，为未来可能出现的更多应用场景奠定基础。

应用前景的展望

StreamingT2V的推出，为长视频内容的自动生成打开了新的可能性。无论是在教育、娱乐还是广告领域，这一技术都有着广泛的应用前景。例如，在教育领域，可以根据教学内容自动生成教学视频；在娱乐领域，可以为用户提供更加丰富和动态的视频体验；在广告领域，则可以制作更加吸引人的广告内容。

StreamingT2V的推出，不仅是技术上的一次飞跃，更是人工智能领域进步的一个缩影。它的成功开源，预示着未来将有更多的创新技术被开发出来，为人类社会的发展带来更多的便利和可能性。随着技术的不断进步，我们有理由相信，人工智能将会在更多领域发挥出巨大的潜力，为我们的生活带来更多的惊喜和改变。

发表于: 2024-03-272024-03-27 23:49:19
原文链接：https://page.om.qq.com/page/O679uhNZAQsWmsIJuDyf1Pqg0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

大杯Sora，两分钟1200帧的长视频生成器StreamingT2V将开源！

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐