
最近字节跳动、香港中文大学等联合开源的 OmniShow,直接把视频生成的玩法提升到了新高度(开源领域)。

这个模型最厉害的地方在于,它是一个全模态的统一框架,一个模型就能同时搞定图像、音频、姿势、文本这四种输入。
效率直接翻倍。而且它专门针对人-物交互场景优化,这对于电商广告或AI短剧漫剧来说简直是量身定制。
更重要的是,OmniShow 不是一个概念性的demo,而是真刀真枪在多个任务上都取得了SOTA的成绩。
从官方发布的对比结果来看,无论是人脸保持、物理合理性,还是表现力、口型同步,OmniShow都比现有的开源模型要好上一截。
而且它还支持原生的长镜头生成,最长能生成10秒的连续视频,这对于很多应用场景来说已经完全够用了。
OmniShow 是由字节跳动、香港中文大学、莫纳什大学和香港大学联合开源的专用于人-物交互视频生成(HOIVG)的端到端模型。

这个项目的核心目标就是统一多种模态条件,让一个模型就能处理文本、参考图像、音频和姿势这四种输入,从而生成高质量的人-物交互视频。
从开发团队来看,这阵容可以说是相当豪华了。这样的产学研结合团队,既有学术界的理论深度,又有工业界的实践经验,做出来的东西自然不会差。
1、全模态统一
OmniShow最大的亮点就是它是一个真正的全模态模型。
它不是分别处理不同模态的输入,而是通过统一的通道级条件注入机制,把文本、参考图像、音频和姿势这四种输入无缝地整合到一起。
这种设计让OmniShow能够同时利用多种模态的信息,生成的视频自然更加丰富和准确。
2、四种生成模式通吃
一个模型就能支持四种不同的生成模式:
特别是RAP2V模式,在开源视频模型领域,应该是唯一一个支持同时用图像+音频+姿势+文本混合输入的模型,这个通用性确实很强。
3、专门针对人-物交互优化
OmniShow 从一开始就是为了解决人-物交互视频生成这个难题而设计的。
它在设计时就特别考虑了人手与物体的接触、抓取等物理交互的合理性,生成的视频中物体穿透、接触不稳定等问题明显减少,物理合理性大大提升。
4、原生支持长镜头生成
OmniShow原生支持长镜头生成,最长可以生成10秒的连续视频,而且动态效果流畅自然,这对于很多实际应用场景来说非常实用。
从官方发布的 benchmark 评估结果来看,OmniShow在各种多模态生成任务上都取得了整体最先进的性能,而且它是唯一一个支持完整RAP2V设置的模型。

在R2V(参考图像转视频)任务上,OmniShow的NexusScore达到0.389,AES达到0.468,VQ达到11.12,MQ达到5.885,这些指标都是所有对比模型中最高的。虽然TA和FaceSim指标不是最高的,但也非常接近最好的水平。

在RA2V(参考图像+音频转视频)任务上,OmniShow的表现更加全面。除了TA和FaceSim指标略低于HuMo-17B外,其他指标包括NexusScore、Sync-C、Sync-D、AES、IQA、VQ、MQ都是最高的。特别是Sync-C和Sync-D这两个音视频同步指标,OmniShow的优势非常明显。

在RP2V(参考图像+姿势转视频)任务上,OmniShow的NexusScore达到0.418,AKD降到0.174,PCK升到0.460,这些指标都明显优于AnchorCrafter和VACE。这说明OmniShow在跟随运动轨迹的同时,还能更好地保持物体交互的真实性。

OmniShow 的出现,为人-物交互视频生成领域带来了一个全新的解决方案。
它的全模态统一框架、四种生成模式的支持、专门针对人-物交互的优化、原生的长镜头生成能力,都让它在众多视频生成模型中脱颖而出。
当然,OmniShow目前还处于刚发布的阶段,代码还没有完全开源,实际应用效果还有待更多人的测试。
但从目前公布的结果来看,它的潜力是巨大的。我们有理由相信,OmniShow 将会在开源视频生成领域,掀起一波新的浪潮。