首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

继ChatGPT之后,Sora又一次刷屏,真正的“文生视频”来了!

ChatGPT之后,OpenAI的文生视频模型Sora再一次刷屏了。Sora基于视觉美学的惊艳表现,让人印象深刻,迅速成为了社交媒体的热点。有网友直呼,“又有一个行业的人要失业了”。

据OpenAI发布的信息,Sora 是一种扩散模型,能够一次性生成整个视频或扩展生成的视频,使其更长。它的独特之处在于能够同时预测多帧画面,确保即便视频中的主体暂时消失在镜头之外,一旦重新出现时,其状态依然保持连贯一致。

Sora继承了DALL-E 3的画质和遵循指令能力,可以根据用户的文本提示创建逼真的视频 ,该模型可以深度模拟真实物理世界 ,能生成具有多个角色、包含特定运动的复杂场景,能理解用户在提示中提出的要求,还了解这些物体在物理世界中的存在方式。

尽管市面上已有多种视频生成工具,它们或多或少能实现类似的功能,但生成效果不尽人意,并且很容易出现错误。然而,Sora的出现,无疑将视频生成的品质提升到了新的高度。

Sora不仅能生成时长达一分钟的视频,还能实现连贯的镜头转换和多角度拍摄,同时保证视频中的主体一致性不受影响。通过精细控制视频中的元素,如背景、表情和颜色,Sora可以表达出丰富的情感和氛围,比如孤独、繁华或是呆萌,使得其生成的视频效果几乎媲美真人拍摄。

下面,我们来看下部分文生视频的效果。

提示:一位时尚的女人走在东京的街道上,街道上到处都是温暖的发光霓虹灯和动画城市标志。她身穿黑色皮夹克,红色长裙,黑色靴子,背着一个黑色钱包。她戴着墨镜,涂着红色口红。她自信而随意地走路。街道潮湿而反光,营造出五颜六色的灯光的镜面效果。许多行人四处走动。

提示:动画场景有一个特写镜头,一个毛茸茸的短怪物跪在一根融化的红蜡烛旁边。艺术风格是3D和逼真的,重点是照明和纹理。这幅画的情绪是一种惊奇和好奇,因为怪物睁大眼睛和张开嘴巴凝视着火焰。它的姿势和表情传达出一种纯真和俏皮的感觉,仿佛它是第一次探索周围的世界。暖色调和戏剧性照明的使用进一步增强了图像的舒适氛围。

Sora的六大优势

1. 60秒超长视频生成:Sora能够生成长达60秒的视频,这在AI视频生成领域是一个显著的进步。

2. 多角度镜头:Sora不仅能够生成视频,还能够在单个视频中包含多个角度的镜头,提供更丰富的视觉体验。

3. 世界模型:Sora是一个基于数据的物理模拟引擎,能够模拟真实或幻想世界的各种场景。它通过复杂的计算过程,如去噪技术和梯度计算,学习精细渲染、模拟物理效果、进行长期逻辑推理和语义理解。

4. 数据驱动的虚拟引擎:Sora的训练可能依赖于大量的合成数据,类似于使用Unreal Engine5生成的数据。这使得它能够实现从文本描述到3D模型的转换,并在视频中模拟复杂的物理现象,如流体动力学。

5. 逼真的视觉效果:Sora生成的视频具有近乎逼真的光影效果,仿佛采用了光线追踪技术。它还能够通过移轴摄影技术,创造出微观世界的视觉感受。

6. 全面的数据驱动引擎:Sora的下一步发展可能会增加更多的输入模式和条件设置,使其成为一个全面的数据驱动虚拟引擎,有望取代传统的手工图形处理流程。

Sora的八个功能

1. 文生视频:提供文本提示词,SORA根据文字,自动语言理解并扩充提示词生产1分钟视频。

2. 图生视频:提供参考图,SORA根据参考图,自动以参考图为核心内容生成1分钟视频。

3. 视频生成视频:提供参考视频,SORA根据参考视频和你需要的风格文本提示词,自动以参考视频为核心内容+特定风格要求生成1分钟视频。

你可以更换视频风格也可以更换视频环境,比如原始视频是在森林中,你可以修改视频背景环境为水下,街景,雪地等。

4. 时间层面扩展视频:提供参考视频,Sora能够在时间层面向前或向后扩展视频,简单说就是人工智能可以通过原始视频猜测出这个视频的过去和未来,扩展出这个视频的过去和将来。

5. 视频拼接:你提供多个不同内容或风格的参考视频,Sora能够把完全不同主题或场景构成的视频无缝拼接成1个完整的视频。

6. 3D一致性:Sora 可以生成带有动态摄像机运动的视频。

人和场景元素在三维空间中保持一致性的移动。

对比其他AI生成视频软件还不具备这个功能。因为其他AI生成视频软件画面移动基本都是基于2D世界层面做的,只能实现简单的一些左右移动,上下移动,曲线移动等,为了确保生产视频画面不抖动,我们用这些软件必须尽量减少镜头的移动和旋转。

这点在Sora中就不需要担心了,他是基于3D世界的动态摄像机移动的,而且人物在3D世界中的运动会保持高度的一致性。

7. 长时间主体一致性:Sora可以保持主体长时间的外观一致性。

例如,我们的模型可以保留人动物和物体,即使被遮挡或离开画面,并能在整个视频中保持其主体的外观一致性。

比如你不断的切换画面镜头,比如让主体离开画面再回到画面中,也能保持机器人在整段视频中的外观一致性 SORA的大杀器之四,现阶段其他AI生成视频软件还不具备这个功能,毕竟能生成的视频都很短才4秒钟。

8. 模拟真实世界交互:Sora用简单的方式模拟真实世界状况物理交互。

例如,画家可以在画布上留下每一步新的笔触,或者一个人可以吃汉堡并留下咬痕并且只吃掉一部分的食物,虽然这在真实世界是时时刻刻发生的事情,这在Sora中都尽可能的去模拟真实世界。

Sora与其他AI视频对比

Sora并不完美

OpenAI指出,Sora可能难以准确模拟复杂场景的物理原理,并且可能无法理解因果关系。该模型还可能混淆提示的空间细节,例如混淆左右,并且可能难以精确描述随着时间推移发生的事件,如遵循特定的相机轨迹。

而这些缺陷可能导致Sora生成一些不合逻辑的东西,比如一个人在跑步机上跑错方向,以不自然的方式改变主题,甚至出现凭空消失的现象。

但是,对于新生的Sora来说,这些都不是关键,后续完全能够通过技术迭代来进行完善和改进。

这也是为什么,Sora现阶段并不完美,但是外界仍一致认为它将会革命性地改变许多行业。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OaUfULplcT0HVLOVCtNsXXFw0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券