首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

超越Gen-2 ?Meta推出文本生成视频工具:Emu Video

今天给大家介绍视频生成的新工具,它的名字叫做Emu Video

它是由Meta的AI团队开发的一款基于扩散模型的文本到视频生成工具。

它可以根据你的文本输入,生成4秒钟的高清视频,分辨率为512×512像素,帧率为每秒16帧。

你可以输入纯文本,也可以输入文本和图片,或者只输入图片,Emu Video都能根据你的输入,生成相应的视频。

效果如何?我们看一下

Meta的研究团队在一个包含3400万个视频文本对的数据集上训练了Emu Video,并使用了两个不同的文本提示集来测试它的性能。

这些文本提示涵盖了各种各样的类别,可以测试模型生成自然和梦幻视频以及组合不同视觉概念的能力。

可以看到,Emu Video生成的视频非常流畅和自然,没有明显的拼接痕迹,就像是一段真实拍摄的视频一样。

Emu Video的原理是什么呢?

Emu Video是基于扩散模型的,扩散模型是一种生成式AI模型,它可以从噪声中重建出清晰的图像或视频。

Emu Video的生成过程包括两个步骤:

第一步是根据文本输入生成一张图像

第二步是根据图像和另一个文本输入生成视频

这样,就可以利用已有的文本到图像模型来初始化视频生成模型,然后在大规模的视频文本数据集上进行微调,提高视频的质量和一致性。

具体的可以看官网的论文。

项目地址:

https://emu-video.metademolab.com/

论文地址:

https://emu-video.metademolab.com/assets/emu_video.pdf

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O-iB-ghaIrxyYgpa_K6652og0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券