前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >如何看待openai最新发布的sora?

如何看待openai最新发布的sora?

作者头像
周萝卜
发布2024-02-21 17:29:15
1270
发布2024-02-21 17:29:15
举报
文章被收录于专栏:萝卜大杂烩萝卜大杂烩

Sora多么牛逼多么真实之类的就不多谈了,只用一句话就能概括:随便拿视频中的一帧出来,效果都不亚于Dalle-3精心生成一张图片,而且这些图片放在一起可以构成基本符合真实世界物理逻辑的视频。而且Sora本身其实也可以做图片生成,只是大材小用了。

这篇文章着重分析一下Sora背后的技术,希望能给大家带来启示。

OpenAI的宏大愿景

Sora不止步于视频生成工具,它的背后是OpenAI的宏大愿景:开发出能够让计算机理解我们世界的算法和技术,而OpenAI认为最有可能的技术之一是生成模型 (generative model)。OpenAI的blog中对Sora的定位正是“作为世界模拟器的视频生成模型”。这里是OpenAI 2016 (!) 年的一篇文章的原话 (https://openai.com/research/generative-models):

我们常常会忽略自己对世界的深刻理解:比如,你知道这个世界由三维空间构成,里面的物体能够移动、相撞、互动;人们可以行走、交谈、思考;动物能够觅食、飞翔、奔跑或吠叫;显示屏上能展示用语言编码的信息,比如天气状况、篮球比赛的胜者,或者1970年发生的事件。这样庞大的信息量就摆在那里,而且很大程度上容易获得——不论是在由原子构成的物理世界,还是由数字构成的虚拟世界。挑战在于,我们需要开发出能够分析并理解这些海量数据的模型和算法。生成模型是朝向这个目标迈进的最有希望的方法之一。要训练一个生成模型,我们首先会在某个领域收集大量的数据(想象一下,数以百万计的图片、文本或声音等),然后训练这个模型去创造类似的数据。这个方法的灵感来自于理查德·费曼的一句名言:“我所无法创造的,我也不能理解。”(即:要真正理解一个事物,你需要去创造它)这个方法的妙处在于,我们使用的神经网络作为生成模型,其参数的数量远远少于训练它们的数据量,这迫使模型必须发现并有效地吸收数据的精髓,以便能够创造出新的数据。

当年最先进的生成模型止步于DCGAN,2016年文章中的附图展示了当时的最先进效果:

而8年后的今天:

这确实让人不得不相信AGI也许在21世纪确实可以实现。而对于OpenAI,实现AGI的一个途径便是开发出能够让计算机理解我们世界的算法和技术(生成模型),Sora是非常重要的一步,即作为世界模拟器的视频生成模型。

对Sora的分析

如果限制必须用一个词来展现OpenAI的最核心的技术,我觉得便是 scaling law - 即怎么样保证模型越大,数据越多,效果就越好。Sora也不例外。一句话概括Sora的贡献,便是:在足量的数据,优质的标注,灵活的编码下,scaling law 在 transformer + diffusion model 的架构上继续成立。在Sora的技术报告中(https://openai.com/research/video-generation-models-as-world-simulators)可以看出,OpenAI实现scaling law的想法其实很大程度上沿袭了大语言模型的经验。

足量的数据

训练Sora用了多少数据?不出意外,OpenAI在整个技术分析中一点都没有提数据的事情,这可太CloseAI了。但是鉴于内容的丰富性(比如甚至可以生成相当连贯一致的Minecraft游戏视频),我猜测很可能是大量的youtube视频,同时也不排除有合成数据(比如3D渲染等)。未来可能用整个youtube上的视频来训练视频生成模型,就和大家用Common Crawl训练大语言模型一样。

灵活的编码(visual patches)

在大语言模型的构建中,一个非常重要的部分便是它的tokenizer。tokenizer使得任何长度和内容的文本都能编码成语言模型可以直接处理(输入/输出)的对象,即embeddings。embeddings在Sora中的对应物称为 visual patches,tokenizer对应的是 video compression network,应该是某种 convolutional VAEs (文章没有说明是不是VQ-VAE)。

具体做法是用 video compression network (visual encoder) 首先将输入视频的时间和空间维度同时进行压缩,编码成一个和视频大小成正比的3D visual patch array,然后再将它按照某种顺序展开成1D array of patches,送入到transformer model中(具体方式应该是参考了https://arxiv.org/abs/2212.09748)。这样带来了不少好处:

1、灵活的分辨率。Sora可以生成1920x1080p(横屏) - 1080x1920p (竖屏)之间任何形状的视频。这也让OpenAI可以在早期使用低分辨率的视频来试错。

2、生成的视频的边框更加合理。OpenAI试过使用固定分辨率,这样带来一个很显然的问题——需要裁剪视频。这种数据的bias会被带入到模型中,促使模型生成很多内容在框外的视频。

优质的标注

和DALL·E 3一样,OpenAI用内部工具(很可能基于GPT4-v)给视频详尽的描述,提升了模型服从prompt的能力,以及视频的质量(还有视频中正确显示文本的能力)。我认为这是非常关键的一点,是OpenAI的杀手锏,对于视频尤其重要。原因很简单,可以从两个角度解释:(1)神经网络是个单射函数,拟合的是文本到视频的映射。视频的动态性非常高,也就是有很大的值域,为了把这个函数学好,需要定义域也很大很丰富,这就需要复杂的prompt了。(2)详细的文本也迫使神经网络学习文本到视频内容的映射,加强对于prompt的理解和服从。

另外一个细节:这种详尽的描述会导致在使用时的bias——用户的描述都相对较短。和DALL·E 3一样,OpenAI用GPT来扩充用户的描述来改善这个问题,并提高使用体验和视频生成的多样性。

除了文本以外,Sora也支持图像或者视频作为prompt,支持SDEdit,并且可以向前或者向后生成视频,因此可以进行多样的视频的编辑和继续创作,比如生成一个首尾相连重复循环的视频:

甚至可以连接两个截然不同的视频:

Transformer + diffusion model 的架构

不算特别意外,OpenAI使用了transformer作为主要架构,结合diffusion model,幸好还不是端到端的autoregressive模型,否则太吓人了(不过这样一来,transformer在自然语言处理,图像视频生成,语音合成(最近amazon的工作BASE TTS: Lessons from building a billion-parameter Text-to-Speech model on 100K hours of data),科学计算(AlphaFold,GraphCast)等最困难的领域都孤独求败了。transformer架构在图像分类等领域还没有占领绝对优势很难说是不是因为任务太简单了或者数据太少了)。我觉得使用diffusion model的主要原因是diffusion model能够生成非常精细的细节,且可以玩出各种有趣的操作(比如SDEdit)。

架构上大概率参考了 Scalable Diffusion Models with Transformers,这是Sora技术分析中引用的文章,Sora部分透露出的细节和这篇文章比较吻合。Sora这次再次验证了Transformer架构能够胜任scaling law。

涌现现象

OpenAI每次提到scaling law时几乎都会伴随着emerging properties,这次也不例外,有以下几点(其实这里放的视频才是真正和目前视频生成区别开的,具体什么意思不用多说一看便知):

1、保证良好的 3D 空间性质(视角变换,物体遮挡等的合理性)

2、时间上物体的连贯性(不会因为遮挡或者时间流逝改变物体原有状态)

3、模拟现实物理的交互

4、连数字世界都可以模拟(这个生成的Minecraft视频真的惊到我了,一开始我还以为是参考视频,没想到是生成的)

然后让我们看看Sora之前的很多视频生成模型的水平(因为太糟甚至成了梗),高下立判 (声音和古怪内容警告):

Sora的缺陷

一句话:还不足以完全模拟所有现实中的物理过程,比如流体动力学(不过如果这个可以看视频就准确模拟出来就太可怕了,都让人怀疑世界是虚拟的了):

一个真正的物理世界模型,估计给它放一段卫星云图视频,它就能把下面几天的气候变化给模拟出来,实现用视频生成模型预测天气,看股市曲线变化预测股价 lol,这样来说,OpenAI要走的路还有很长啊。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2024-02-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 萝卜大杂烩 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • OpenAI的宏大愿景
  • 对Sora的分析
    • 足量的数据
      • 灵活的编码(visual patches)
        • 优质的标注
        • Transformer + diffusion model 的架构
        • 涌现现象
        • Sora的缺陷
        相关产品与服务
        语音合成
        语音合成(Text To Speech,TTS)满足将文本转化成拟人化语音的需求,打通人机交互闭环。提供多场景、多语言的音色选择,支持 SSML 标记语言,支持自定义音量、语速等参数,让发音更专业、更符合场景需求。语音合成广泛适用于智能客服、有声阅读、新闻播报、人机交互等业务场景。
        领券
        问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档