GPT-5升级即将来袭,OpenAI暗示其即将发布,关于发布日期及新功能的预测层出不穷。而其中一个最新预测或许是迄今为止最令人兴奋的。
知名AI预测专家Tibor Blaho在社交平台X上暗示了OpenAI的Sora可能迎来更新。他发布了一张OpenAI.org主机名称的截图,显示其中有名为“Sora 2”的文件。
Sora是OpenAI推出的视频生成器。它最早于2024年12月上线,当时被认为是AI视频领域的巨大飞跃之一。
然而,自那以后,形势发生了变化,Sora本身并没有太大改进。实际上,谷歌的Veo 3以及一些较少为人知的竞品(如Kling 2、Runway和Moonvalley)逐渐将Sora甩在了后面。
因此,将Sora的更新与GPT-5一同发布,显得顺理成章。AI视频发展迅速,OpenAI当然不愿意被落在后面。尽管尚未正式确认,但外界普遍预计新版Sora将带来以下几项新功能。
Sora 2会是什么样?
1. 动作表现提升
Sora目前并不能很好地理解人类动作。许多现有版本生成的视频片段中,人们会出现身体融合、手臂消失或身体穿透地面的现象。
造成这种问题的原因有很多,但最主要的是AI模型并未完全掌握物理规律。尽管它们被训练于大量视频片段之上,但并未理解这些片段背后的实际原理。
举例来说,一名男子冲浪的视频在理论上没有问题,但如果AI不理解人类与水之间的互动原理,就很难复现出真实的效果。
此外,视频训练比图像训练复杂得多。每次看到的动作都可能不同,这为还原人类复杂动作带来了挑战。
不过,这并非无法解决。更先进的AI视频模型已逐步接近攻克这一难题,理论上Sora 2也有望做到这一点。
2. 增加音频功能
市场上Veo 3领先的一个重要原因,就是它能为视频片段添加音频。
早期AI视频生成器(如Sora)只关注生成视频,而近期的新竞品则已开始融入AI生成的音频。
为了让Sora 2更具竞争力,OpenAI很可能会引入类似功能。虽然他们曾尝试过AI音频生成,但近来对此一直保持低调。
3. 支持更长视频片段
Sora 2有望在生成视频片段的长度方面实现突破。目前大多数生成器一次只能输出4到8秒的视频。
不过,一些竞争对手已经开始逐步提升这一数字。OpenAI有可能会率先实现这一目标。
如果OpenAI成功实现,考虑到更长视频生成所需的高昂成本和能耗,这项功能很可能只向其最昂贵的订阅计划用户开放。
4. 更高质量的视频画面
AI视频领域的又一大变化是视频画质的全面提升。
Moonvalley是一家提供免版权AI视频生成的公司,凭借高质量画面在业内引起关注。它只基于高质量视频进行训练,从而确保输出一定分辨率以上的画面。
尽管OpenAI未必会做到如此极端,但通过改进训练方法和底层技术,Sora 2有望大幅提升视频质量。
当然,要兼顾更长视频和更高画质并不容易,这两项功能很可能会分别作为独立选项推出。