首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

OpenAI Sora技术深度解析报告

美国时间2月15日,文生视频大模型Sora横空出世,能够根据文本指令或静态图像生成1分钟的视频。其中,视频生成包含精细复杂的场景、生动的角色表情以及复杂的镜头运动,同时也接受现有视频扩展或填补缺失的帧。

从技术报告中,Sora视频生成过程大致由以下三个步骤组成:

视频编码:Visual Encoder将原始视频压缩为低维潜在空间,再将视频分解为时空patches后拉平为系列视频token以供transformer处理。

加噪降噪:在transfomer架构下的扩散模型中,时空patches融合文本条件化,先后经过加噪和去噪,以达到可解码状态。

视频解码:将去噪后的低维潜在表示映射回像素空间。

总体而言,我们认为Sora技术报告虽未能详尽阐述视频生成技术细节,但从参考技术文献中,可初步窥探出时空patches、视频压缩网络、 Transformer技术架构、独特文本标注视频数据集等技术与资源优势,这些或为Sora占据业内领先地位的原因。

SORA001:+OpenAI Sora专题报告(精选九篇)

-Sora实现文生视频跨越式突破,AIGC持续正反馈

-Sora算力倍增,国产架构+生态崛起

-Sora重磅发布,AI 生成视频迎巨大创新

-Sora开启创意领域 iPhone 时刻,关注全球文生图、视频投资机会

-AI应用Sora有望助推多模态AI热度

-OpenAI Sora模型发布,视频生成技术迎来突破性升级

-OpenAI发布Sora文生视频模型,AI行业持续高速发展

-OpenAI推出首个文生视频大模型Sora,引领AI文生视频行业跨越式发展

-Sora:世界模拟器的视频生成器

SORA002:OpenAI Sora技术深度解析报告

以下是报告部分内容

声明

  • 发表于:
  • 原文链接https://page.om.qq.com/page/Op2YI1nwCs3Do5t43DuJSWtQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券