世界模型来了？OpenAI发布文生视频Sora爆炸出圈

文章来源：企鹅号 - 算法一只狗

春节准备过完，OpenAI发布了震撼科技圈的文生视频模型Sora。它出圈的地方就在于，能够把原来生成的几秒视频硬生生拔高到可以生成1分钟左右的视频。

不仅如此，各种媒体还称其为”世界模型“，因为它能够模拟复杂场景，生成符合人类感官的视频。比如下面这个例子：

在东京街头，一位时髦的女士穿梭在充满温暖霓虹灯光和动感城市标志的街道上。

从多个大V的观点来看，这次OpenAI发布的Sora，是一个基于虚幻引擎5做驱动的模型。就连OpenAI官网中，也把Sora称为是构建通向物理世界模拟器的希望路径。

那么，Sora到底有什么惊人的地方，值得大众趋之若鹜？这就先要谈谈之前的文生视频模型的局限性。

文生视频模型的局限性

我们都知道，在上一年的年末，各种文本视频生成模型突然爆火，让AI技术在文生视频领域也有了一定的用武之地。感兴趣的可以回看我之前详细介绍的文章：

像之前大众所熟知的Runway、Pika软件，由于其简单上手，迅速火遍朋友圈，连我周围很多朋友都尝试过这些好玩有趣的AI视频生成软件。

但是这些软件缺点也很明显，集中在以下几个难以解决的问题：

视频生成的人脸细节不符合直觉

生成的视频往往会存在视频闪烁

视频时间往往只有几秒，难以生成长时间的视频

人脸细节生成效果差，在于AI模型往往会聚焦于整体的图片风格生成，而忽略了各种面部细节。

生成的视频存在闪烁问题，这个主要是因为目前的大部分文生视频模型其实是通过多张图片生成后，在进行合并生成视频的。因此它难以保证每一张图片都符合上下文。

同时，以前的文生视频模型或软件，往往只能生成几秒的视频，这是因为长视频的生成往往容易导致画面不连贯，同时时间过长会耗费大量的算力。因此以前的模型最长只有10几秒的视频。

但是OpenAI发布的Sora模型，从其demo来看，已经克服了上面几个比较突出的问题，因此其优点有以下几个：

视频图像一致性：生成的视频连贯性加强，可以在人、动物和物体被遮挡或离开画面时仍然保持它们的存在。同样，它可以在一个样本中生成同一角色的多个镜头，并在整个视频中保持它们的外观。

长时间视频生成：能够把十几秒的视频提升到1分钟左右

克服人脸细节等问题

一些令人惊艳的Demo

狗戴着贝雷帽、穿着黑色高领毛衣

一位戴着尖顶帽，身披绣有白色星星的蓝色长袍的巫师正在施法，他的一只手射出闪电，另一只手中拿着一本旧书。

新春舞龙

Sora是世界模型吗？

世界模型最开始是由图灵奖得主LeCun提出来的。他认为真正的世界模型，是AI能够通过感知外部环境，来理解世界的运作方式。

而这种模型需要会听、会读、会写，同时利用自己先验知识来推理，可以跳脱出本身的训练数据。

回到OpenAI发布的Sora，他已经足够惊艳，在基于Transformers架构下生成出的视频已经能够达到以假乱真。并且可以大量的训练数据，去描述现实世界的物理规律。

比如下图中，Sora生成的怪物毛发特性已经很精细了

但是Sora并不完美，他在设计到复杂场景的时候，还是会出现明显的偏差。并没有真正的学习到现实世界的通用规律。比如，在吃掉一个饼干后，Sora也不能够生成吃掉一口的饼干形状。

从目前来看，Sora距离真正的世界模型还是有一定的距离，但是不妨碍其是一个出色的文生视频模型。要想真正实现通用化的AI模型，需要统一多种模态，来理解世界规律。这样才能真正做到不依赖于训练数据，实现自主推理。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货