OpenAI最近一直在教人工智能如何理解和模拟运动中的物理世界。他们的目标是训练出一个能帮助人们解决现实世界交互问题的模型。想象一下,如果人工智能能像人一样理解物理规则,那会是多么酷的事情啊!
现在,让我来给大家介绍一位新朋友——Sora!她是OpenAI的最新文本转视频模型,可以生成长达一分钟的视频,而且视觉质量超级棒,还能完全遵守你的指示。为了让她更加完美,OpenAI还请来了一些视觉艺术家、设计师和电影制作人,希望从他们那里得到一些宝贵的反馈。
OpenAI一直以来都很喜欢和大家分享他们的研究进展,这样可以让更多的人参与到这个激动人心的旅程中来。他们相信,通过公开和合作,可以让人工智能的发展更加迅速,也能让更多的人受益。
Sora这个小姐姐可是个了不起的家伙!她能生成复杂的场景,里面有多个角色、各种运动,还有主体和背景的细节。她不仅能理解你的指示,还能理解这些东西在现实世界中的存在方式。她的语言理解能力超强,可以准确地解释你的提示,并生成引人注目的角色来表达生动的情感。更厉害的是,她还能在一个生成的视频中创建多个镜头,完美地保留角色和视觉风格。
当然啦,Sora现在还是个新手,还有一些地方需要改进。比如,她可能还不太擅长模拟复杂场景的物理原理,有时候也会搞混一些空间细节。不过没关系,OpenAI会继续努力,帮助她变得更加出色!
在把Sora应用到OpenAI的产品之前,OpenAI会采取一系列重要的安全措施。他们正在和一群叫做“红队成员”的家伙合作,这些人都是错误信息、仇恨内容和偏见等领域的专家。他们会像玩“找茬游戏”一样测试Sora,看看她能不能经受住考验。
除此之外,OpenAI还在开发一些工具来检测误导性内容。比如有一种叫做检测分类器的神奇工具,可以判断Sora什么时候生成了视频。如果OpenAI决定在他们的产品中使用这个模型,他们计划将来加入一种叫做C2PA的元数据。
OpenAI不仅关注新技术的发展,还在利用一些现有的安全方法来保护用户。这些方法是为使用DALL·E 3的产品而开发的,现在也适用于Sora。比如,他们的文本分类器会检查并拒绝违反使用政策的文本输入提示。同时,他们还有强大的图像分类器来检查生成的每个视频帧,以确保它们符合使用政策。
OpenAI非常注重与世界各地的政策制定者、教育工作者和艺术家合作。他们希望了解这些人的担忧,并确定这项新技术的积极应用场景。虽然进行了大量的研究和测试,但OpenAI仍然无法预测人们将以何种有益或滥用的方式使用他们的技术。因此,他们相信从现实世界的使用中学习是创建和发布越来越安全的人工智能系统的关键。
Sora是一种非常特别的扩散模型。她就像一位魔法师,从看起来像静态噪声的视频开始,通过多个步骤逐渐消除噪声来生成精彩的视频。她可以一次性生成整个视频,或者扩展已有的视频使其变得更长。OpenAI通过一种巧妙的方法解决了一个具有挑战性的问题:如何确保主题即使在暂时离开视野时也能保持一致。
与GPT模型类似,Sora也使用了变压器架构。这使得她能够释放出卓越的扩展性能,就像超级英雄一样!
OpenAI将视频和图像表示为一系列较小的数据单元集合,这些单元被称为补丁。每个补丁类似于GPT中的令牌。通过统一表示数据的方式,OpenAI能够在比以往更广泛的视觉数据上训练扩散变换器。这意味着Sora可以涵盖不同的持续时间、分辨率和纵横比。
Sora是建立在过去对DALL·E和GPT模型研究的基础之上的。她使用了DALL·E 3的重述技术,这项技术为视觉训练数据生成了高度描述性的标题。这使得Sora能够更忠实地遵循生成视频中用户的文本指令。
除了能够根据文本指令生成视频外,Sora还具有其他神奇的能力!她可以获取现有的静态图像并从中生成视频,就像给图像注入了生命一样。她还能准确地动画图像的内容,并关注到每一个小细节。此外,她还能获取现有视频并对其进行扩展或填充缺失的帧。如果你想知道更多关于Sora的秘密,请务必查阅OpenAI的技术报告!
Sora是理解和模拟现实世界模型的基础。OpenAI相信这一功能将成为实现人工智能的重要里程碑。想象一下,如果人工智能能够像人一样理解和模拟现实世界,那将会开启怎样全新的可能性呢?我们期待着与Sora一起探索这个令人兴奋的未来!
如果你觉得有趣,请帮忙点赞,如果想一直有趣,可以加关注,要是觉得无聊,欢迎在评论区留言。
重点阅读推荐:
领取专属 10元无门槛券
私享最新 技术干货