数码 I 渝码科技
在 2025 年谷歌I/O大会上,谷歌推出了其最新视频生成 AI 模型-Veo3,这款模型最大的亮点是能够同时生成视频与音频。
谷歌DeepMind 首席执行官Demis Hassabis 将其称为“我们首次走出视频生成的无声时代”,Veo3的出现为视频创作带来了全新的可能性。
1、技术突破与创新
Veo3的音频生成是其核心竞争力之一。
全新模型能够同时生成高质量视频和匹配的音频内容,包括背景音效、音效、音乐以及画面精准对口型的同步对话,标志着 AI 视频生成技术进入“视听一体化”时代。
该模型的音频生成技术基于谷歌早期的Video-to-Audio(V2A)技术,采用基于扩散的方法,从随机噪声开始,经过多次迭代,最终生成与屏幕动作完美对齐的真实音频。
Veo3 能够理解视频中的原始元素,并自动将生成的声音与视觉内容同步,创作出无缝的视听体验。
除了音频生成,Veo3在视觉质量和物理模拟方面也比前代产品有了显著提升;它能够更好地理解真实世界的物理规则,从而生成更加逼真的视频内容。
此外,Veo3 在唇形同步方面表现出色,能够准确地将生成的对话与角色的嘴部动作相匹配,解决了AI视频生成中将语音与面部动作同步这一极具挑战性的难题。
2、应用场景与潜力
Veo3的出现为电影制作人、内容创作者以及广告商等带来了巨大的便利和全新的创作思路。
创作者现在可以使用自然语言提示,指定希望与视频内容一同生成的音频类型。
例如,他们可以描述一个场景,要求生成与之匹配的背景音乐、环境音效以及角色对话,Veo3能够根据这些提示生成相应的视频和音频内容。
这大大简化了视频创作的流程,降低了创作成本,提高了创作效率。
在广告领域,Veo3可以帮助广告商快速生成各种广告视频,根据不同的产品和目标受众,生成具有吸引力的视觉和音频内容,从而提高广告的效果。
此外,Veo3还可以应用于教育、娱乐、游戏等多个领域,为这些行业带来更加丰富和生动的内容体验。
总而言之,谷歌的Veo3模型以其同步生成视频和音频的能力,为AI内容创作领域带来了重大突破。它不仅提高了视频生成的质量和逼真度,还为创作者提供了更加便捷和高效的创作工具。
领取专属 10元无门槛券
私享最新 技术干货