首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >通义万相2.1登顶榜单:免费生成视频的时代来了?

通义万相2.1登顶榜单:免费生成视频的时代来了?

原创
作者头像
算法一只狗
发布2025-01-11 21:50:33
发布2025-01-11 21:50:33
1.6K0
举报
文章被收录于专栏:算法一只狗算法一只狗

打开通义万相的官网,已经可以看到视频生成模型已经更新到了最新版本2.1了

目前这个最新模型已经全面开放,普通人注册登录之后就可以尝试生成。一个文生视频生成需要耗费5个灵感值。但是只要你签到之后,会送你50个,一天相当于可以让你免费生成10个视频。

但是目前生成视频还是比较慢,一般来说一个视频需要等个5-7分钟左右。

在官方给出的新模型效果上看,其在VBench的榜单上排名第一。这个视频生成榜单 是一个用于评估和比较视频生成模型性能的综合基准测试工具,由 VBench 团队开发并在 CVPR 2024 发布。

VBench 将视频生成质量分解为 16 个综合维度,包括但不限于视频的清晰度、连贯性、时序一致性和多样性等。这些指标可以全面揭示每个模型的性能强项与短板。

从图中可以看到,Wanx 2.1 模型在多个指标上表现突出,其总分(Total Score)取得了最高的84.70%,在质量分(Quality Score)上则获得了85.64%,表明其在视频生成的质量维度上表现优异,接近其他顶级模型。而在语义分(Semantic Score)上达到80.95%,说明其在语义一致性方面表现稳定,反映其生成视频在语义相关性上的良好表现。最后在主观评分极高,说明在用户或专家的直观评价中得到了高度认可。

通义万相优势

要知道,目前国内国外其实已经有很多视频生成模型,像国内的可灵、海螺、即梦、Vidu,还有国外的sora、luma、pika等视频生成模型都能够生成符合物理世界规律的视频。但是有一个问题在于其不能够在视频中生成中文。

而这一次通义万相2.1新版本,则克服了视频中不能生成中文的缺点,第一次能够有效控制中文的生成。

比如下面这个视频,可以很精细的生成“可可”这两个字体,并控制手指上的移动位置:

另一个优势在于,它能够在复杂稳定的控制肢体运动的生成。

有人说,想要检验一个视频生成模型是否成功,可以去让它生成“体操”视频。这就是相当于AI视频的“图灵测试”。

在大部分AI体操视频生成中,扭曲的肢体、不协调的动作满屏皆是。

这背后反映了复杂肢体运动生成的挑战性。由于涉及精细的动作细节和高水平的协调性,这类任务已经成为衡量 AI 视频生成能力的重要标杆。

生成一个复杂的人物运动场景,对于 AI 来说犹如破解一项物理难题——它不仅需要确保身体各部位的精准配合与四肢的协调,还需综合考虑重力作用、人体运动特性和平衡感等多方面的细节。

在最新的升级版本中,通义万相 2.1 展现了令人惊叹的「运动天赋」。

无论是滑冰、游泳,还是跳水等极具挑战性的场景,万相 2.1 都能稳稳驾驭。从生成效果来看,模型未出现任何诡异的肢体动作或不符合物理规律的情节,让人眼前一亮。

就拿这个跳水动作来说,完全展现出了专业级选手的风采。从肌肉的精准控制到入水时溅起的水花,每一个细节都高度符合自然规律。不仅动作流畅自如,整体协调性也堪称完美,令人难以相信这是 AI 自动生成的结果。

模型架构

万相的模型架构还是来自于DIT架构,这个架构早已经成为各家各户视频生成模型的基础架构。

精准理解和模拟物理世界,是当前视频生成模型面临的核心挑战。现有模型在处理大幅运动或物理复杂场景时表现不佳,常常生成肢体扭曲或违背物理规律的画面。为解决这一问题,通义万相 2.1 引入了自主研发的视频 VAE(变分自编码器)和 DiT(Diffusion Transformer)架构,大幅提升了时空上下文关系的建模能力。

具体而言,VAE 通过将视频划分为若干块并缓存中间特征,实现了对超长 1080P 视频的高效编解码,支持生成无限长度的高清视频。而 DiT 则通过时空全注意力机制和参数共享机制,显著提高了生成质量和训练效率。

这种架构设计不仅解决了传统模型在复杂场景下的表现瓶颈,还为生成高质量、物理一致性强的视频开辟了新的路径。

写在最后

2025年刚刚开始,通义就发布了如此重磅级的AI模型,确实让人眼前一亮。很多人都说2025年将会是AI应用大爆发的一年。随着技术的不断进步,AI 在多个领域的潜力逐渐显现,尤其是在视频生成、自然语言处理、智能驾驶和医疗影像分析等方面,都达到了前所未有的高度。像通义万相 2.1 这样先进的模型,凭借强大的生成能力和更贴近真实的表现,正在逐步改变传统行业的工作方式和用户体验。

越来越期待今年的AI能够给普通人带来更多的便利和创新~

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 通义万相优势
  • 模型架构
  • 写在最后
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档