首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >字节、港中大、港大等最新开源力作:OmniShow,专用于人-物交互的端到端视频生成模型!

字节、港中大、港大等最新开源力作:OmniShow,专用于人-物交互的端到端视频生成模型!

作者头像
开源星探
发布2026-04-16 17:05:44
发布2026-04-16 17:05:44
380
举报
文章被收录于专栏:翩翩白衣少年翩翩白衣少年

最近字节跳动、香港中文大学等联合开源的 OmniShow,直接把视频生成的玩法提升到了新高度(开源领域)。

这个模型最厉害的地方在于,它是一个全模态的统一框架,一个模型就能同时搞定图像、音频、姿势、文本这四种输入。

效率直接翻倍。而且它专门针对人-物交互场景优化,这对于电商广告或AI短剧漫剧来说简直是量身定制。

更重要的是,OmniShow 不是一个概念性的demo,而是真刀真枪在多个任务上都取得了SOTA的成绩。

从官方发布的对比结果来看,无论是人脸保持、物理合理性,还是表现力、口型同步,OmniShow都比现有的开源模型要好上一截。

而且它还支持原生的长镜头生成,最长能生成10秒的连续视频,这对于很多应用场景来说已经完全够用了。

项目介绍

OmniShow 是由字节跳动、香港中文大学、莫纳什大学和香港大学联合开源的专用于人-物交互视频生成(HOIVG)的端到端模型。

这个项目的核心目标就是统一多种模态条件,让一个模型就能处理文本、参考图像、音频和姿势这四种输入,从而生成高质量的人-物交互视频。

从开发团队来看,这阵容可以说是相当豪华了。这样的产学研结合团队,既有学术界的理论深度,又有工业界的实践经验,做出来的东西自然不会差。

核心亮点

1、全模态统一

OmniShow最大的亮点就是它是一个真正的全模态模型。

它不是分别处理不同模态的输入,而是通过统一的通道级条件注入机制,把文本、参考图像、音频和姿势这四种输入无缝地整合到一起。

这种设计让OmniShow能够同时利用多种模态的信息,生成的视频自然更加丰富和准确。

2、四种生成模式通吃

一个模型就能支持四种不同的生成模式:

  • R2V(Reference-to-Video):参考图像转视频
  • RA2V(Reference+Audio-to-Video):参考图像+音频转视频
  • RP2V(Reference+Pose-to-Video):参考图像+姿势转视频
  • RAP2V(Reference+Audio+Pose-to-Video):参考图像+音频+姿势转视频

特别是RAP2V模式,在开源视频模型领域,应该是唯一一个支持同时用图像+音频+姿势+文本混合输入的模型,这个通用性确实很强。

3、专门针对人-物交互优化

OmniShow 从一开始就是为了解决人-物交互视频生成这个难题而设计的。

它在设计时就特别考虑了人手与物体的接触、抓取等物理交互的合理性,生成的视频中物体穿透、接触不稳定等问题明显减少,物理合理性大大提升。

4、原生支持长镜头生成

OmniShow原生支持长镜头生成,最长可以生成10秒的连续视频,而且动态效果流畅自然,这对于很多实际应用场景来说非常实用。

功能特性
  • 高保真参考保持:在生成视频时能够非常好地保持参考图像中的人物和物体外观。
  • 自然的运动动态:生成的视频运动效果非常流畅,动态丰富且连贯。
  • 精确的音视频同步:在需要音频输入的场景下,能够实现非常精确的音视频同步。
  • 稳定的身份保持:无论生成什么样的动作和场景,都能保持人物身份的高度一致性。
  • 多样化的应用场景:音频驱动的数字人、物体交换、视频 remix等。
性能表现

从官方发布的 benchmark 评估结果来看,OmniShow在各种多模态生成任务上都取得了整体最先进的性能,而且它是唯一一个支持完整RAP2V设置的模型。

在R2V(参考图像转视频)任务上,OmniShow的NexusScore达到0.389,AES达到0.468,VQ达到11.12,MQ达到5.885,这些指标都是所有对比模型中最高的。虽然TA和FaceSim指标不是最高的,但也非常接近最好的水平。

在RA2V(参考图像+音频转视频)任务上,OmniShow的表现更加全面。除了TA和FaceSim指标略低于HuMo-17B外,其他指标包括NexusScore、Sync-C、Sync-D、AES、IQA、VQ、MQ都是最高的。特别是Sync-C和Sync-D这两个音视频同步指标,OmniShow的优势非常明显。

在RP2V(参考图像+姿势转视频)任务上,OmniShow的NexusScore达到0.418,AKD降到0.174,PCK升到0.460,这些指标都明显优于AnchorCrafter和VACE。这说明OmniShow在跟随运动轨迹的同时,还能更好地保持物体交互的真实性。

写在最后

OmniShow 的出现,为人-物交互视频生成领域带来了一个全新的解决方案。

它的全模态统一框架、四种生成模式的支持、专门针对人-物交互的优化、原生的长镜头生成能力,都让它在众多视频生成模型中脱颖而出。

当然,OmniShow目前还处于刚发布的阶段,代码还没有完全开源,实际应用效果还有待更多人的测试。

但从目前公布的结果来看,它的潜力是巨大的。我们有理由相信,OmniShow 将会在开源视频生成领域,掀起一波新的浪潮。

  • • 项目页:https://correr-zhou.github.io/OmniShow/
  • • GitHub:https://github.com/Correr-Zhou/OmniShow
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-04-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 开源星探 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 项目介绍
  • 核心亮点
  • 功能特性
  • 性能表现
  • 写在最后
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档