一大早上就被OpenAI发布的首个视频生成模型Sora炸醒了。没错就是那个奥特曼。
铺天盖地的各种小视频,宣传着他的能力。展现着各种炸裂的高清视频能力。
网上吹的很牛,让我们能一窥未来AI对整个行业的颠覆,以及给我们创造更多的想象。
目前存在的问题
1、Sora难以准确模拟复杂场景的物理原理,并且可能无法理解因果关系。
例如:虽然能生成几匹狼嬉闹玩耍的场景,但不能理解这么多只狼的复杂层叠关系,所以你会看到有的小狼会凭空消失)
2、模型对提示词中描述的空间细节容易发生混淆,有时会无法精确描述随着时间推移发生的事件。
例如:篮球和球框随着时间的关系,前后空间发生了错误,篮球遮挡住了篮筐
目前看到的能力
1、完美继承DALL·E 3的画质和遵循指令能力,能生成长达60秒的高清视频。(这在之前是不可能的,最多几秒钟的位移画面)
2、Sora可以在单个视频中创建多个镜头,并依靠对语言的深入理解准确地解释提示词,保留角色和视觉风格。(也就是可以统一视觉风格,包括镜头运镜和多镜头切换)
行驶中的列车窗外偶遇遮挡,车内人物倒影短暂出现非常惊艳。
OpenAI怎么评价
1、教AI理解和模拟运动中的物理世界,目标是训练模型来帮助人们解决需要现实世界交互的问题。
2、Sora是一种扩散模型,从噪声开始,能够一次生成整个视频或扩展视频的长度,
关键之处在于一次生成多帧的预测,确保画面主体即使暂时离开视野也能保持不变。
3、Sora 是能够理解和模拟现实世界的模型的基础,OpenAI相信这一功能将成为实现AGI的重要里程碑。
目前网上已经开始不断po出新的作品,以后的真假虚实,会越来越难分辨了。
领取专属 10元无门槛券
私享最新 技术干货