OpenAI距离实现AGI又近一步！文生视频模型Sora最大意义：理解和还原真实世界

文章来源：企鹅号 - 腾讯新闻潜望

腾讯新闻《潜望》纪振宇发自硅谷

地球上最炙手可热的人工智能初创公司OpenAI，在美国时间2月15日又出其不意地放出了大招。这家公司当天公布了最新文生视频大模型Sora，展示的视频效果惊人，再度奠定了自己在生成式人工智能领域至今无可撼动的地位。

OpenAI称，Sora为能理解和模拟现实世界的模型提供了基础，这将是实现 AGI （通用人工智能）的重要里程碑。

OpenAI的这一描述十分准确，尽管过去两年人工智能文字机器人ChatGPT爆火，对文字展现出非凡的理解力和逻辑性，但其中所缺失的最大短板在于对人所处的真实环境的感知和理解，但Sora模型所展现出的能力，展现出模型已经对于空间以及空间内物体之间的真实物理关系，有了准确的理解，这无疑是OpenAI向其所宣称的达成AGI的目标迈出了一大步。

OpenAI公布的数十个视频演示，用肉眼已经非常难以察觉这些视频与真实世界拍摄的差异，尤其是视频中所展现出的物体和物体之间的真实物理反馈，正如OpenAI所说，这为模型理解和模拟现实世界提供了基础，是一次具有里程碑意义的重要发布。

Sora模型生成视频与真实场景几无差异

OpenAI在15日当天发布Sora模型，该公司表示，Sora可以通过文字生成真实和想象的场景，目前Sora可以生成的单个视频时长为1分钟以内。

OpenAI在当天的官方博客中表示，Sora有能力创建“有众多人物的复杂场景，以及特定的动作，准确的对象细节和背景”，该公司还表示，该模型能够识别物体“在真实物理世界中的存在”，以及“准确解读提示词并生成对象来表达丰富的情绪”。

根据OpenAI官方描述，Sora模型还能够基于静态图片生成视频，以及在现有视频中插入图像帧。在当天OpenAI展示了部分由Sora模型生成的视频的惊人效果，包括行人在日本街头行走、狗在雪地中玩耍等丰富场景。

OpenAI提出，模型有时可能会在准确地模拟复杂物理世界场景中出现困难，但就OpenAI公布的部分Demo视频的效果来看，已经有十分惊人的表现，例如狗在雪地中玩耍的场景，无论是雪从狗身上滑落，还是狗与雪花之间的互动，都与真实物理世界的场景惊人一致，并没有出现明显的逻辑上的错误。

生成式人工智能领域由文字、图像正在逐渐向视频过渡，除了OpenAI外，Runway、Pika等相关领域的初创公司在近期都在文生视频领域取得显著的进展。此外，谷歌的Lumiere被认为是未来OpenAI在文生视频领域主要竞争者之一。

OpenAI当天表示，目前Sora仅向“ red teamers”开放，在大规模发布之前需要经过潜在的风险评估，OpenAI还向部分视觉艺术家、设计师、电影工作者等开放了Sora的早期使用，希望从早期使用者中获得反馈。

拆解背后技术，并能为不同设备创建内容

在公布Sora模型的同时，OpenAI也大致解释了Sora模型的背后技术。OpenAI表示，Sora是一种扩散模型，它通过从一个类似静态噪声的视频开始，通过多步骤去除噪声，逐渐转换生成视频。

Sora 能够一次性生成整个视频，或者扩展已生成的视频使其更长。通过让模型一次预见多帧，解决了确保主体即使暂时离开视野也能保持不变的挑战性问题。

OpenAI表示，类似于GPT模型，Sora使用了Transformer架构，解锁了更优越的扩展性能。在训练阶段，OpenAI将视频和图像拆解为数据的更小单元集合，称为“补丁”，每个“补丁”类似于 GPT 中的一个令牌。通过统一拆解数据的方式，可以在比以前可能的更广泛的视觉数据上训练扩散transformer，包括不同的持续时间、分辨率和纵横比。

由于Sora也是扩散模型，给定输入的噪声补丁（和条件信息，如文本提示），它被训练来预测原始的“干净”补丁。重要的是，Sora是一种扩散transformer。Transformer在包括语言建模、计算机视觉和图像生成等多个领域展现了显著的扩展性能。

Sora 建立在 DALL·E 和 GPT 模型的过去研究之上。它使用了来自 DALL·E 3 的重新标注技术，为视觉训练数据生成高度描述性的标题。因此，模型能够更忠实地根据用户的文本指令生成视频。

OpenAI称，Sora能够生成宽屏1920x1080p视频、竖屏1080x1920视频以及介于两者之间的所有内容。这使得Sora可以直接以不同设备的原生宽高比创建内容。它还允许以全分辨率生成内容之前，使用同一模型快速原型化较小尺寸的内容。

除了能够仅从文本指令生成视频外，该模型还能够接受现有的静态图像，并从中生成视频，准确且细致地动画化图像内容。模型还可以接受现有视频并扩展它或填充缺失的帧。

尽管Sora模型目前生成的视频演示结果已经十分惊艳，但OpenAI表示，Sora当前作为环境模拟依然面临许多局限性。例如，它并不准确地模拟许多基本互动的物理特性，如玻璃破碎；其他互动，如吃食物，不总是能产生正确的物体状态变化。OpenAI在当天的发布中，也将这些局限性展现在部分视频演示中。

OpenAI朝着AGI又更近了一步

当天Sora的发布，再度对外展现了OpenAI超群的技术力，展示的生成视频已经用肉眼很难区别出是否是真实的场景，这其中更为重要的是，Sora模型展现出了对真实物理空间的理解力，这也进一步巩固了将通用人工智能（AGI）作为最终目标的OpenAI对目前所走技术路线的信心。

回过头来看，在一年多前推出的ChatGPT，是OpenAI所迈出的第一步，这款让所有人都能体会到人工智能潜力的现象级产品，展现出了文字对于过去人工智能的理解力和逻辑能力的超越，随后，OpenAI的开发重点又逐步过渡到图像的生成，Dall-E模型在生成图像方面也获得了巨大的突破，如今的Sora模型，是在ChatGPT和Dall-E的基础上自然的过渡。

从纯文字向多模态的过渡，是生成式人工智能领域几乎所有人都可以预见的路径，但现阶段比拼的依然是底层的技术力，从像谷歌这样的大公司到像Runway这样的初创公司，尽管都已经展示了类似的文本生成视频的AI项目，但OpenAI表示，Sora的区别在于其惊人的逼真度，以及其生成比其他模型通常做的短片段更长的剪辑的能力，长达一分钟。

要生成这样的内容所消耗的算力资源也是巨大的，虽然OpenAI目前对于生成一个这样的视频需要多长时间并没有准确的披露，但据内部员工透露，大概是出门吃个便饭的时间。尽管这样的速度要比生成文字或静态图像慢得多，但是如果效果是超逼真的视频内容，这样的生成时间目前来看也并不算离谱。

英伟达高级人工智能研究院Jim Fan在当天表示，不能将Sora简单理解为像Dall E那样生成图片的玩具，而是一个由数据驱动的物理引擎。

“它是许多，无论是真实的还是幻想的世界的模拟器。”Jim Fan说。

OpenAI表示，“Sora今天所展现的能力让我们相信，持续扩展视频模型是一条开发我们身处的物理和数字世界可行的路径。”

发表于: 2024-02-162024-02-16 10:42:26
原文链接：https://page.om.qq.com/page/OlvdvY9UXcbo88KiLoNtpITw0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

OpenAI距离实现AGI又近一步！文生视频模型Sora最大意义：理解和还原真实世界

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐