首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Open-Sora 2.0:开源AI视频生成的新纪元

告别高价!Open-Sora 2.0 引领开源视频生成革命

是否还在为百万美元的视频生成模型而叹息?是否觉得AI视频创作只是巨头的游戏?现在,开源社区用实力证明:一切皆有可能!Open-Sora 2.0,一款全新的开源模型,打破了视频生成的“氪金”规则。令人难以置信的是,这款性能媲美商业级,拥有110亿参数的模型,仅花费20万美元(224张GPU)就训练成功!相比那些耗资数百万美元的闭源模型,Open-Sora 2.0的性价比优势显而易见。

Open-Sora 2.0的发布,无疑是视频生成领域的一次“平民革命”。它不仅拥有媲美甚至超越百万美元级模型的强大能力,更以开放的姿态,公开模型权重、推理代码和训练流程,彻底释放了高质量视频创作的潜力。这意味着,曾经高不可攀的AI视频生成技术,现在触手可及,每个人都有机会参与到这场激动人心的创作中来!

1. 强大实力:Open-Sora 2.0 效果展示

1.1 惊艳效果:Open-Sora 2.0 视频示例

效果如何?直接看视频!Open-Sora 2.0的生成效果绝对令人惊艳:

流畅运镜:无论是人物的细微动作,还是宏大的场景调度,Open-Sora 2.0都能精准控制,画面表现力极佳!

高清画质:720p高清分辨率,24FPS稳定帧率,Open-Sora 2.0生成的视频清晰流畅,视觉体验极佳!

多样场景:田园风光、都市夜景、科幻宇宙…… Open-Sora 2.0都能轻松驾驭,细节丰富,运镜自然,堪称“AI界的达芬奇”!

1.2 参数规模小,性能超越巨头

Open-Sora 2.0并非虚有其表,而是拥有真正的技术实力。仅有110亿的参数规模,却表现出惊人的能量。在评测平台VBench和用户主观评测中,Open-Sora 2.0都取得了足以媲美HunyuanVideo和30B Step-Video等闭源模型的卓越成绩,是“以小博大”的典范!

用户评价:在视觉效果、文本一致性、动作表现等方面,Open-Sora 2.0至少有两项指标超越了开源模型HunyuanVideo,甚至超过了Runway Gen-3Alpha等商业模型,证明了“低成本也能有好货”!

VBench 榜单:在视频生成领域权威的VBench榜单上,Open-Sora 2.0的进步速度惊人。从1.2版本到2.0版本,它与OpenAI Sora闭源模型之间的性能差距从4.52%缩小到0.69%,几乎可以忽略不计!更令人兴奋的是,Open-Sora 2.0在VBench评测中的得分已经超越了腾讯HunyuanVideo,再次证明了其“低投入,高产出”的巨大优势,为开源视频生成技术树立了新的里程碑!

2. 低成本训练:开源背后的技术秘密

Open-Sora开源以来,就凭借其高效、优质的视频生成能力迅速走红。但如何打破高质量视频生成“成本高企”的魔咒,让更多人参与进来?Open-Sora团队通过一系列技术创新,将模型训练成本降低了5-10倍!市面上动辄百万美元的训练费用,Open-Sora 2.0只用了20万美元就搞定,堪称“开源界的性价比之王”!

Open-Sora不仅开源了模型代码和权重,还公开了全流程训练代码,构建了一个充满活力的开源生态。短短半年时间,Open-Sora的学术论文引用量接近百次,在全球开源影响力榜单上名列前茅,超越了所有开源I2V/T2V视频生成项目,成为名副其实的“开源视频生成领头羊”。

2.1 模型架构:传承与创新

Open-Sora 2.0在模型架构上,既传承了1.2版本的精髓,又进行了大胆创新:延续了3D自编码器和Flow Matching训练框架,并保留了多桶训练机制,确保模型能够“兼容并蓄”,处理各种长度和分辨率的视频。同时,又引入了多项“黑科技”,让视频生成能力更上一层楼:

3D 全注意力机制:

更精准地捕捉视频中的时间和空间信息,让生成的视频画面更连贯、细节更丰富。

MMDiT 架构:

更准确地理解文本指令和视频内容之间的关联,让文生视频的语义表达更精准、更到位。

模型规模扩容至11B:

更大的模型容量意味着更强的学习能力和生成潜力,视频质量自然水涨船高。

FLUX 模型:

借鉴开源图生视频模型FLUX的成功经验,进行模型初始化,大幅降低了训练时间和成本,让模型训练效率“坐上火箭”。

2.2 高效训练秘籍:全流程开源,降低成本

为了将训练成本降到最低,Open-Sora 2.0在数据、算力、策略等方面都做了大量工作,堪称“开源界的省钱专家”:

数据筛选:

Open-Sora团队深知“garbage in, garbage out”的道理,对训练数据进行严格筛选,确保每一份数据都是高质量的,从源头上提升模型训练效率。

算力优化:

Open-Sora 2.0优先进行低分辨率训练,高效学习视频中的运动信息,在大幅降低成本的同时,确保模型掌握视频生成的“核心技能”。

策略调整:

Open-Sora 2.0优先训练图生视频模型,加速模型收敛速度。推理阶段支持“文生图再生视频”(T2I2V)模式,用户可以先通过文本生成图像,再将图像转化为视频,获得更精细的视觉效果。

并行训练:

Open-Sora 2.0采用了高效的并行训练方案,最大限度提升计算资源利用率,实现更高效的视频生成训练。

2.3 高压缩比AE,加速推理

训练成本降低后,推理速度也要跟上!Open-Sora 2.0探索高压缩比视频自编码器(AE)的应用,进一步降低推理成本,提升视频生成速度。Open-Sora 2.0训练了一款高压缩比的视频自编码器,将推理时间缩短至单卡3分钟以内,速度提升了10倍!

Open-Sora团队坚信,高压缩比视频自编码器将是未来视频生成技术发展的关键方向,并希望借此吸引更多社区力量,共同探索高压缩比视频自编码器的潜力,推动高效、低成本视频生成技术更快发展。

3. 开源协作:共赴AI视频革命

Open-Sora 2.0正式开源!诚挚邀请全球开发者、科研机构、AI爱好者加入Open-Sora社区,共同推动AI视频革命,让视频创作的未来更加开放、普惠、精彩!

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O-hKn_hFUyy-JXpnCj_7pD6Q0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券