开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >专栏 >AI视频模型的Stable Diffusion时刻

AI视频模型的Stable Diffusion时刻

原创

用户11764306

发布于 2026-04-16 15:24:09

发布于 2026-04-16 15:24:09

3430

举报

AI视频正迎来它的Stable Diffusion时刻

过去，AI视频的效果并不理想：

（示例：威尔·史密斯吃意大利面，由u/chaindrop发布，2023年3月）

10个月后，某机构发布了Sora：

（示例：由文本生成视频，某机构，2024年2月）

Sora重新定义了人们对视频模型的期望。其输出视频分辨率高、画面流畅且连贯。示例看起来像真实视频，仿佛一下子跃入了未来。

问题在于，没人能使用它！这仅仅是一个预览。

这就像2021年某机构宣布DALL-E图像生成模型时一样。那是多年来最非凡的软件之一，但没人能用上。

这造成了大量积压的需求，最终催生了Stable Diffusion。

现在同样的事情正在视频领域发生。Sora让每个人都意识到了可能性。

现在有很多模型与Sora一样好

有些质量高，有些速度快，有些专注写实，另一些则侧重风格与创意。

有些是开源的，社区正在修改、优化并在此基础上构建。你可以用新的风格、对象和角色等进行微调。

模型	ELO评分	速度	时长	分辨率	开源
某机构 Sora	1147	40秒	5秒	720p	否
Minimax Video-01	1110	3分钟	5秒	720p	否
某机构 Hunyuan Video	1071	8分钟	5秒	720p	是
Genmo Mochi 1	1064	4分钟	5秒	848×480	是
Runway Gen3	1048	20秒	5秒	720p	否
Haiper 2.0	1037	5分钟	4或6秒	720p	否
Luma Ray	1029	40秒	5秒	720p	否
Lightricks LTX-Video	680	10秒	3秒	864×480	是

ELO评分来自Artificial Analysis。除非另有说明，速度和时长基于生成5秒720p视频的时间。

大多数这些模型都可以在Replicate上使用。你可以在浏览器中试用，并通过API进行开发。以下是值得尝试的模型：

Minimax Video-01

Video-01（也称为Hailuo）在写实和连贯性方面表现最佳。在很多方面达到了Sora的质量。同样流畅，主体连贯，分辨率高。能很好地处理分布外的主体。不过它没有Sora的全部功能。

可以通过文本描述或图像作为起始帧生成5秒720p视频。闭源，生成大约需要3分钟。

某机构 Hunyuan Video

HunyuanVideo与Sora和Minimax的Video-01水平相当，而且是开源的！

因为是开源，你可以对其进行任何操作。可以微调，有人已经做了视频到视频的转换，它可配置性更强（分辨率、时长、步数、引导比例等更多参数）。可以生成5秒720p视频，也能生成更小、更快的540p视频。可以减少步数和分辨率以快速尝试不同效果。

缺点是比Video-01慢，但正在努力使其更快。

优化方案当然也会开源。

Luma Ray

Luma Ray（也称为Dream Machine）不如Minimax Video-01或Hunyuan Video写实，但速度更快、更具创意。于6月发布，是新一代有能力的视频模型中的早期作品。

生成5秒720p视频需要40秒。相比其他模型，它有更多控制输出的工具：

起始帧和结束帧
起始和结束视频之间的插值
循环视频

Ray 2即将推出。

Haiper 2.0

Haiper 2.0于10月发布。可以生成4秒和6秒的720p视频。6秒视频大约需要5分钟生成。可以使用文本或图像以多种宽高比生成视频。

4K版本即将推出。

Genmo Mochi 1

Mochi 1是首个开源的高质量视频模型。最初需要4张H100显卡才能运行，但社区迅速优化到单张4090即可运行。

也可以在Replicate上微调Mochi 1。使用genmoai/mochi-1-lora-trainer进行训练，使用genmoai/mochi-1-lora运行训练好的模型。

Lightricks LTX-Video

LTX-Video是一个低内存占用的开源视频模型。速度非常快：在L40S GPU上生成3秒视频仅需10秒（而其他模型在H100上需要数分钟）。

虽然速度超快，但质量预期会低于其他模型。

还有更多

还有几个优秀的模型尚未在Replicate上提供：

Kling AI
某机构 Sora
Pika 2.0（具有强大的“场景成分”功能）
Runway Gen3

当然，所有人仍在等待Black Forest Labs（FLUX的创造者）发布其备受期待的视频模型。FINISHED

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

#程序那些事

评论

登录后参与评论

0 条评论

热度

最新