Sora不止生成视频而是模拟世界！

文章来源：企鹅号 - 数字经济先锋号

◎编辑｜数字经济先锋号

近日，OpenAI正式发布文本生成视频AI模型Sora，着实给了打工人一个巨大的开年惊喜，生成视频的效果很“炸裂”，不仅画质清晰、细节到位，人物表情和视角也无限逼近于专业水准。不管是不是视频相关从业者，看到Sora的强大，也不得不惊叹一句恐怖如斯！

据官网介绍，Sora可以通过文本指令直接生成60秒以内的视频，在此之前的视频生成模型一般只能生成15秒以内的视频。在官网给出的示例中，人物的瞳孔、睫毛、皮肤纹理，都逼真到看不出一丝破绽。

”文生视频“并不是Sora的首创，在此前也有Fliki、Runaway、Pika等数个文生视频模型，CGTN把Sora官网提供的提示词，输进了另外几款“文生视频”模型中，对比分析发现，Sora生成画面的真实度、空间感和细节呈现等方面明显强于其他模型。

目前市面上文生视频模型的主流技术路线主要有两种：一种基于Transformer模型的技术路线，即从文本及图像中生成，另一种则是基于扩散模型（Diffusion model），如 Runway。Sora则结合了Diffusion和Transformer模型，通过扩散模型（DALL-E3）和转换器架构（ChatGPT）组合，Sora不用预测序列中的下一个文本，而是预测序列中的下一个“Patch”。

这意味着Sora是基于patch而非整个视频进行训练，类似ChatGPT用Token处理文本一样处理视频，因此，Sora可以高效处理更多的数据，输出质量也会更高，较于Runaway和Pike等模型可以更逼真地模拟物理世界。

在OpenAI官网上已经更新了48个视频demo，在这些demo中，Sora不仅能准确呈现细节，还能理解物体在物理世界中的存在，并生成具有丰富情感的角色。该模型还可以根据提示、静止图像甚至填补现有视频中的缺失帧来生成视频，多视角的视频自然也不在话下。

OpenAI在官网中介绍，Sora不是一个单纯的视频生成模型，而是能够理解和模拟现实世界的模型的基础，称之为world simulators（世界模拟器），将视频生成作为帮助 AI 理解真实世界的工具。训练 AI 理解和生成一个真实的场景或者世界，视频只是从某一个视角观察这个场景的一段时空，建立起AI对世界的认知。

或许我们可以理解为，AI吸收数据，通过Sora生成物理世界的影像，并逐渐理解物理世界，最终准确、真实地对物理世界进行反馈和互动。终极目标应该是具身智能体，而视频生成只是过程中的一部分。这也是Sora与其他文生视频大模型的本质区别之一。

在Sora技术报告中，展示了Sora的多项能力，例如Sora可以在语言建模、计算机视觉和图像生成等多个领域展现了显著的扩展属性。以下图像分别是在1倍训练量、4倍训练量、16倍训练量的情况下所输出的视频质量。

另外，Sora具有较强的语言理解能力，通过标注模型和ChatGPT对文字处理后，Sora能够更准确遵循用户的指示，尽可能减少错误和误差。

Sora也能够将视频向前或向后延长时间。下面数个视频都是从生成的视频片段开始向后延长的。虽然这几个视频的开头各不相同，但最终都会达到相同的结局。

Sora技术报告最后总结道，当在大规模上训练时，视频模型展现出许多有趣的新兴能力。这些能力使得Sora能够模拟现实世界中人类、动物和环境的某些方面。这些属性并没有任何针对3D、物体等的明确归纳偏见——它们纯粹是规模效应的现象。例如3D一致性、长距离一致性和物体恒存性，甚至模拟数字世界等能力。

这些能力表明，持续扩展视频模型是朝着开发高度能够模拟物理和数字世界及其内部的物体、动物和人类的有希望的道路。

如果说Sora的能力能够让普通人感到惊奇，业内人士受到的冲击则会更加震惊。AI的进化速度远超预期，AIGC极具破坏性创新的潜力，现有的产业格局如短视频、广告、游戏、影视行业等产业格局一定会被重塑，给行业带来巨大的改变。

就像360董事长周鸿祎所说：“Sora 只是小试牛刀，它展现的不仅仅是一个视频制作的能力，而是大模型对真实世界有了理解和模拟之后，会带来新的成果和突破。”周鸿祎甚至预言AGI实现将从10年缩短到1年，这也是业内人士对Sora感到震撼的缩影之一。

诚然，Sora本身还并不完美，无法将现实世界中的所有信息都精确掌握，在展示视频中也经常出现违背物理规则的内容，例如玻璃碎裂的因果过程、四条腿的蚂蚁等等。

但Sora所展现的技术里程碑具有更重要的意义。对内容创作来说，降低了视频创作的成本，可以通过对Sora的提示和编辑为广大短视频用户提供更具视觉冲击力的画面。

对于广告公司、视频制作公司等视频行业从业者来说，Sora探索了生成视频的高质量路径，今后的从业模式将会有较大的改变和优胜劣汰。

对AI行业的公司来说，Sora则是帮助他们节约了巨大的探索成本和指明了前进方向，就像ChatGPT爆火之后国内外涌现的众多AI创业团队，Sora也为AI的发展提供了新的挑战和机会。

据此前《华尔街日报》透露，OpenAI首席执行官Sam Altman正试图开展一个旨在提高全球芯片制造能力的项目，重塑全球半导体行业。该计划准备筹集高达5万亿至7万亿美元。而据半导体产业协会（SIA）最新报告，2023年全球半导体行业销售额总计才5268亿美元。

Altman在推文中也表示：“我们认为，世界对AI基础设施的需求，包括芯片制造能力、能源供给、数据中心等，已经远远超过了目前的建设计划。”

OpenAI的野心，超过了当前世界大多数人的想象边界，Sora固然神奇，但和ChatGPT一样，仅仅只是个开始。

参考资料：https://openai.com/research/video-generation-models-as-world-simulatorsd

发表于: 2024-02-202024-02-20 15:50:50
原文链接：https://page.om.qq.com/page/OBeCdT8Vwb8zxuV9SuNNAieA0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

Sora不止生成视频而是模拟世界！

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐