GPT-5即将登场，Sora 2或成AI视频新突破——OpenAI最新升级预测详解

文章来源：企鹅号 - 真智AI

GPT-5升级即将来袭，OpenAI暗示其即将发布，关于发布日期及新功能的预测层出不穷。而其中一个最新预测或许是迄今为止最令人兴奋的。

知名AI预测专家Tibor Blaho在社交平台X上暗示了OpenAI的Sora可能迎来更新。他发布了一张OpenAI.org主机名称的截图，显示其中有名为“Sora 2”的文件。

Sora是OpenAI推出的视频生成器。它最早于2024年12月上线，当时被认为是AI视频领域的巨大飞跃之一。

然而，自那以后，形势发生了变化，Sora本身并没有太大改进。实际上，谷歌的Veo 3以及一些较少为人知的竞品（如Kling 2、Runway和Moonvalley）逐渐将Sora甩在了后面。

因此，将Sora的更新与GPT-5一同发布，显得顺理成章。AI视频发展迅速，OpenAI当然不愿意被落在后面。尽管尚未正式确认，但外界普遍预计新版Sora将带来以下几项新功能。

Sora 2会是什么样？

1. 动作表现提升

Sora目前并不能很好地理解人类动作。许多现有版本生成的视频片段中，人们会出现身体融合、手臂消失或身体穿透地面的现象。

造成这种问题的原因有很多，但最主要的是AI模型并未完全掌握物理规律。尽管它们被训练于大量视频片段之上，但并未理解这些片段背后的实际原理。

举例来说，一名男子冲浪的视频在理论上没有问题，但如果AI不理解人类与水之间的互动原理，就很难复现出真实的效果。

此外，视频训练比图像训练复杂得多。每次看到的动作都可能不同，这为还原人类复杂动作带来了挑战。

不过，这并非无法解决。更先进的AI视频模型已逐步接近攻克这一难题，理论上Sora 2也有望做到这一点。

2. 增加音频功能

市场上Veo 3领先的一个重要原因，就是它能为视频片段添加音频。

早期AI视频生成器（如Sora）只关注生成视频，而近期的新竞品则已开始融入AI生成的音频。

为了让Sora 2更具竞争力，OpenAI很可能会引入类似功能。虽然他们曾尝试过AI音频生成，但近来对此一直保持低调。

3. 支持更长视频片段

Sora 2有望在生成视频片段的长度方面实现突破。目前大多数生成器一次只能输出4到8秒的视频。

不过，一些竞争对手已经开始逐步提升这一数字。OpenAI有可能会率先实现这一目标。

如果OpenAI成功实现，考虑到更长视频生成所需的高昂成本和能耗，这项功能很可能只向其最昂贵的订阅计划用户开放。

4. 更高质量的视频画面

AI视频领域的又一大变化是视频画质的全面提升。

Moonvalley是一家提供免版权AI视频生成的公司，凭借高质量画面在业内引起关注。它只基于高质量视频进行训练，从而确保输出一定分辨率以上的画面。

尽管OpenAI未必会做到如此极端，但通过改进训练方法和底层技术，Sora 2有望大幅提升视频质量。

当然，要兼顾更长视频和更高画质并不容易，这两项功能很可能会分别作为独立选项推出。

相关快讯