啥也还说,直接看效果,
下面三个视频全是用一句话AI自动生成的。
这就是Sora,一个视频生成模型,它可以根据文本、图像或视频的提示来生成高保真度的视频。
下面,是创业者必看内容
已经有人开始吊唁即将消失的行业了。
目前Sora已经能生成具有多个角色、包含特定运动的复杂场景,不仅能理解用户在提示中提出的要求,还了解这些物体在物理世界中的存在方式。
一群纸飞机,在茂密的丛林中翩翩起舞,在树林中穿梭,就像候鸟一样。
下面,是技术派必看内容
核心技术归纳---
视频数据的统一表示:Sora 用一种网络来压缩视频数据到一个低维的潜在空间,然后用时空补丁来表示视频,这样可以处理不同大小、持续时间和纵横比的视频和图像。
扩展变压器用于视频生成:Sora 是一种扩散变压器,它可以在给定噪声补丁和条件信息的情况下,预测原始的“干净”补丁。Sora 的采样质量随着训练计算的增加而显著提高。
多样的视频生成能力:Sora 可以根据不同的输入来生成视频,例如文本、图像或视频。Sora 可以生成不同的持续时间、纵横比和分辨率的视频,最多可以生成一分钟的高清视频。Sora 还可以执行一些图像和视频编辑的任务,例如创建无缝循环的视频,动画静态图像,延长或缩短视频的时间等。
模拟世界的能力:Sora 在大规模训练后表现出一些有趣的模拟能力,例如3D一致性,长期连贯性和对象永久性,以及与世界的交互。Sora 也可以模拟一些人工过程,例如视频游戏。Sora 的这些能力暗示了继续扩展视频模型是构建物理和数字世界的通用模拟器的一条有前途的途径。
很多人仍然还在质疑AI的能力,但大家是否想过,到底是我们高估了AI,还是我们高估了人类?
这个意义有多大呢?用360周鸿祎的话说,Sora的诞生意味着AGI(通用人工智能)实现可能从10年缩短至一两年。
领取专属 10元无门槛券
私享最新 技术干货