首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

没等来OpenAI,等来了Open-Sora全面开源

OpenAI发布Sora的消息尚未到来,但Open-Sora的全面开源却已经实现!这一事件标志着视频生成技术的一个重要里程碑,同时也为全球AI爱好者和开发者社区带来了新的机遇。

Open-Sora 1.0是由Colossal-AI团队开发的全球首个类Sora架构视频生成模型。这个模型以其卓越的视频生成效果迅速走红,不仅在技术社区中引起了轰动,也为视频创作领域带来了革命性的变革。Open-Sora 1.0的开源,涵盖了整个训练流程,包括数据处理、所有训练细节和模型权重,这意味着任何人都可以免费获取这些资源,共同推进视频创作的新时代。

Open-Sora 1.0的模型架构设计采用了目前火热的Diffusion Transformer (DiT)架构。作者团队以同样使用DiT架构的高质量开源文生图模型PixArt-α为基座,在此基础上引入时间注意力层,将其扩展到了视频数据上。这种架构的设计,不仅大大降低了训练和推理开销,而且与同样使用空间-时间注意力机制的Latte模型相比,STDiT可以更好地利用已经预训练好的图像DiT的权重,从而在视频数据上继续训练。

Open-Sora的复现方案参考了Stable Video Diffusion (SVD)工作,共包括三个阶段:大规模图像预训练、大规模视频预训练和高质量视频数据微调。每个阶段都会基于前一个阶段的权重继续训练,这种多阶段训练通过逐步扩展数据,更高效地达成高质量视频生成的目标。作者团队表示,在Open-Sora的复现流程中,他们使用了64块H800进行训练,第二阶段的训练量一共是2808 GPU hours,约合7000美元,第三阶段的训练量是1920 GPU hours,大约4500美元。整个训练方案成功把Open-Sora复现流程控制在了1万美元左右。

Colossal-AI团队在代码仓库中还提供了便捷的视频数据预处理脚本,让大家可以轻松启动Sora复现预训练。这包括公开视频数据集下载,长视频根据镜头连续性分割为短视频片段,使用开源大语言模型LLaVA生成精细的提示词。作者团队提供的批量视频标题生成代码可以用两卡3秒标注一个视频,并且质量接近于GPT-4V。最终得到的视频/文本对可直接用于训练,显著降低了启动Sora复现项目的技术门槛和前期准备。

Open-Sora模型的实际视频生成效果令人印象深刻。例如,模型能够根据简单的文本提示生成一段在悬崖海岸边,海水拍打着岩石的航拍画面,或是捕捉山川瀑布从悬崖上澎湃而下的宏伟鸟瞰画面。此外,Open-Sora还能通过延时摄影的手法,向我们展现了繁星闪烁的银河。这些生成的视频不仅在视觉上逼真,而且在动态表现上流畅自然,展现了模型在处理复杂场景和细节方面的强大能力。

尽管Open-Sora 1.0在视频生成领域取得了显著的成就,但作者团队在Github上提到目前版本仅使用了400K的训练数据,模型的生成质量和遵循文本的能力都有待提升。例如,在生成的乌龟视频中,生成的乌龟多了一只脚。Open-Sora 1.0也并不擅长生成人像和复杂画面。作者团队在Github上列举了一系列待做规划,旨在不断解决现有缺陷,提升生成质量。

Open-Sora 1.0的全面开源,不仅为视频生成技术的发展提供了新的推动力,也为全球的AI研究者和开发者提供了一个宝贵的资源。随着模型的不断优化和训练数据的增加,我们有理由相信,Open-Sora将在视频创作领域发挥更加重要的作用,推动AI技术在电影、游戏、广告等多个领域的应用和落地。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OdXqplU_whWHlbFpBHyv3Ofg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券