首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

OpenAI全新发布的Sora,到底意味着什么?

在2024年2月16日的凌晨(美国当地时间2月15日),OpenAI揭开了其最新创新——Sora,一个能够将文本转化为视频的先进工具。这一消息迅速在全球范围内引发了震动,人们在社交媒体上用各种语言表达着他们的震惊:现实界限似乎被突破了。

这是一段咒语(Prompt):

“Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance creates a warm glow, the low camera view is stunning capturing the large furry mammal with beautiful photography, depth of field.”

翻译成中文:

几只巨大的毛茸茸的猛犸象正踏着白雪皑皑的草地走来,它们长长的毛茸茸的皮毛在风中轻轻飘动,远处覆盖着积雪的树木和雄伟的雪山,午后的阳光下有缕缕云彩,太阳高挂在天空中。”距离产生了温暖的光芒,低摄像头视角令人惊叹地捕捉到了大型毛茸茸的哺乳动物,具有美丽的摄影和景深。

文生视频。文有了。现在,看视频截图。

(详情视频可以前往官网查看)

看完之后,什么感觉?是不是感觉:这……不可能是AI生成的吧?这逼真的场景,这动作,不可能是假的吧!

以前不相信是真的。现在不相信是假的。

当然,你可能会说:这算什么,AI视频又不是新东西,之前不是有runway和pika吗?

第一,sora可以做出60秒的视频,pika、runaway那些生成3秒4秒视频一下子就没有了竞争优势!

看看以下视频截图,Sora生成的视频有一分钟。(详情视频可以前往官网查看)

第二,单视频多角度镜头

平时我们拍视频,需要好几台机器中景近景远景啥的互相切换的。

sora直接一句话实现了各种中景近景远景切换,在一分钟的视频里,实现了多角度,人物还无比稳定。

再来看看这个东京女人逛大街的视频截图:(详情视频可以前往官网查看)

中文的Prompt:

一位时尚的女士穿着黑色皮夹克、长红裙和黑色靴子,手拿黑色手袋,在东京一条灯光温暖、霓虹灯闪烁、带有动感城市标志的街道上自信而随意地行走。她戴着太阳镜,涂着红色口红。街道潮湿而有反光效果,色彩缤纷的灯光仿佛在地面上创造了镜面效果。许多行人在街上来往。

第三,世界模型

用Sora生成的视频,并不总是能“咬就会有痕”。它“有时”也会出错。但这已经很厉害,很可怕了。因为“先记忆,再预测”,这种理解世界的方式,是人类理解世界的方式。这种方式有个名字,叫:世界模型。

比如下面这段视频截图:(详情视频可以前往官网查看)

什么是“世界模型”呢?

它能够模拟和生成各种复杂场景的视频,仿佛在创造一个虚拟的世界。Sora的核心能力在于它能够根据文本提示生成长达一分钟的高清视频,这些视频包含了高度细致的背景、复杂的多角度镜头以及富有情感的角色。这种模型能够理解和模拟运动中的物理世界,目标是帮助人们解决需要现实世界交互的问题。

Sora的技术细节包括以下几个关键点:

扩散模型:Sora基于扩散模型,这是一种从静态噪声开始,通过多个步骤逐渐去除噪声,最终生成清晰视频的过程。这种模型能够处理视频和图片中时空片段的潜代码。

Transformer架构:Sora使用了Transformer架构,这种架构在处理语言模型、计算机视觉和图像生成等领域表现出了卓越的扩展能力。Sora的扩散Transformer模型能够有效地扩展,处理不同分辨率、持续时间和纵横比的视频和图片。

视觉Patch:Sora将视频压缩到一个低维潜在空间,并将这种表征分解为时空Patch,这些Patch类似于GPT中的Token,用于在Transformer模型中进行训练和生成。

长期推理和物理模拟:Sora能够模拟真实或幻想的世界,学习复杂的渲染、物理规则和长期推理。它甚至可能用虚幻引擎5进行大量训练,这使得生成的视频在视觉上更加逼真。

局限性:尽管Sora在视频生成方面取得了显著进展,但它仍然存在一些局限性,例如在模拟复杂物理现象时可能不够精确,有时会出现逻辑不连贯或物体凭空出现的情况。

值得注意的是:OpenAI的官网留了一句话:

所有本页面上的视频都是直接由Sora生成,未经修改。

那么Sora的出现,对人工智能的整体发展,到底意味着什么?

通用人工智能(AGI)的进展,Sora展示了AI在理解和模拟物理世界方面的能力,这被认为是实现通用人工智能(AGI)的关键一步。AGI是指能够在多种任务和环境中灵活应用知识的AI,Sora的发布可能会加速这一目标的实现。

Sora可以学习视频,来理解现实世界的动态变化,并用计算机视觉技术模拟这些变化,从而创造出新的视觉内容。简而言之,Sora学习的不仅仅是视频,也不仅仅是视频里的画面、像素点,还在学习视频里面那个世界的“物理规律”。

Sora对视频、影视、广告、游戏、教育和新闻等多个行业产生了影响。它可能会改变这些行业的工作流程,提高内容创作的效率,同时也可能对相关行业的就业结构产生影响,尤其是那些依赖于传统视频制作技能的岗位。

Sora的出现可能会加剧“后真相”现象,即在信息和通信技术的帮助下,真假信息难以区分,人们越来越依赖个人情感和信仰来判断信息。

对于我们来说,用好AI视频工具,成为AIP,或者优化工作效率和创业效率,至关重要。

这个世界正在发生着难以想象的变化。看似很远,但又瞬间近在眼前。

我们算是在春节期间见证历史了

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OPp1pcoqNFuqS_i0nD319OCg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券