首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >AI视频模型的Stable Diffusion时刻

AI视频模型的Stable Diffusion时刻

原创
作者头像
用户11764306
发布2026-04-16 15:24:09
发布2026-04-16 15:24:09
3430
举报

AI视频正迎来它的Stable Diffusion时刻

过去,AI视频的效果并不理想:

(示例:威尔·史密斯吃意大利面,由u/chaindrop发布,2023年3月)

10个月后,某机构发布了Sora:

(示例:由文本生成视频,某机构,2024年2月)

Sora重新定义了人们对视频模型的期望。其输出视频分辨率高、画面流畅且连贯。示例看起来像真实视频,仿佛一下子跃入了未来。

问题在于,没人能使用它!这仅仅是一个预览。

这就像2021年某机构宣布DALL-E图像生成模型时一样。那是多年来最非凡的软件之一,但没人能用上。

这造成了大量积压的需求,最终催生了Stable Diffusion。

现在同样的事情正在视频领域发生。Sora让每个人都意识到了可能性。

现在有很多模型与Sora一样好

有些质量高,有些速度快,有些专注写实,另一些则侧重风格与创意。

有些是开源的,社区正在修改、优化并在此基础上构建。你可以用新的风格、对象和角色等进行微调。

模型

ELO评分

速度

时长

分辨率

开源

某机构 Sora

1147

40秒

5秒

720p

Minimax Video-01

1110

3分钟

5秒

720p

某机构 Hunyuan Video

1071

8分钟

5秒

720p

Genmo Mochi 1

1064

4分钟

5秒

848×480

Runway Gen3

1048

20秒

5秒

720p

Haiper 2.0

1037

5分钟

4或6秒

720p

Luma Ray

1029

40秒

5秒

720p

Lightricks LTX-Video

680

10秒

3秒

864×480

ELO评分来自Artificial Analysis。除非另有说明,速度和时长基于生成5秒720p视频的时间。

大多数这些模型都可以在Replicate上使用。你可以在浏览器中试用,并通过API进行开发。以下是值得尝试的模型:

Minimax Video-01

Video-01(也称为Hailuo)在写实和连贯性方面表现最佳。在很多方面达到了Sora的质量。同样流畅,主体连贯,分辨率高。能很好地处理分布外的主体。不过它没有Sora的全部功能。

可以通过文本描述或图像作为起始帧生成5秒720p视频。闭源,生成大约需要3分钟。

某机构 Hunyuan Video

HunyuanVideo与Sora和Minimax的Video-01水平相当,而且是开源的!

因为是开源,你可以对其进行任何操作。可以微调,有人已经做了视频到视频的转换,它可配置性更强(分辨率、时长、步数、引导比例等更多参数)。可以生成5秒720p视频,也能生成更小、更快的540p视频。可以减少步数和分辨率以快速尝试不同效果。

缺点是比Video-01慢,但正在努力使其更快。

优化方案当然也会开源。

Luma Ray

Luma Ray(也称为Dream Machine)不如Minimax Video-01或Hunyuan Video写实,但速度更快、更具创意。于6月发布,是新一代有能力的视频模型中的早期作品。

生成5秒720p视频需要40秒。相比其他模型,它有更多控制输出的工具:

  • 起始帧和结束帧
  • 起始和结束视频之间的插值
  • 循环视频

Ray 2即将推出。

Haiper 2.0

Haiper 2.0于10月发布。可以生成4秒和6秒的720p视频。6秒视频大约需要5分钟生成。可以使用文本或图像以多种宽高比生成视频。

4K版本即将推出。

Genmo Mochi 1

Mochi 1是首个开源的高质量视频模型。最初需要4张H100显卡才能运行,但社区迅速优化到单张4090即可运行。

也可以在Replicate上微调Mochi 1。使用genmoai/mochi-1-lora-trainer进行训练,使用genmoai/mochi-1-lora运行训练好的模型。

Lightricks LTX-Video

LTX-Video是一个低内存占用的开源视频模型。速度非常快:在L40S GPU上生成3秒视频仅需10秒(而其他模型在H100上需要数分钟)。

虽然速度超快,但质量预期会低于其他模型。

还有更多

还有几个优秀的模型尚未在Replicate上提供:

  • Kling AI
  • 某机构 Sora
  • Pika 2.0(具有强大的“场景成分”功能)
  • Runway Gen3

当然,所有人仍在等待Black Forest Labs(FLUX的创造者)发布其备受期待的视频模型。FINISHED

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档