首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

谷歌新款 AI 模型 Veo3: 同时生成视频与音频 开启视听一体化时代

数码 I 渝码科技

在 2025 年谷歌I/O大会上,谷歌推出了其最新视频生成 AI 模型-Veo3,这款模型最大的亮点是能够同时生成视频与音频。

谷歌DeepMind 首席执行官Demis Hassabis 将其称为“我们首次走出视频生成的无声时代”,Veo3的出现为视频创作带来了全新的可能性。

1、技术突破与创新

Veo3的音频生成是其核心竞争力之一。

全新模型能够同时生成高质量视频和匹配的音频内容,包括背景音效、音效、音乐以及画面精准对口型的同步对话,标志着 AI 视频生成技术进入“视听一体化”时代。

该模型的音频生成技术基于谷歌早期的Video-to-Audio(V2A)技术,采用基于扩散的方法,从随机噪声开始,经过多次迭代,最终生成与屏幕动作完美对齐的真实音频。

Veo3 能够理解视频中的原始元素,并自动将生成的声音与视觉内容同步,创作出无缝的视听体验。

除了音频生成,Veo3在视觉质量和物理模拟方面也比前代产品有了显著提升;它能够更好地理解真实世界的物理规则,从而生成更加逼真的视频内容。

此外,Veo3 在唇形同步方面表现出色,能够准确地将生成的对话与角色的嘴部动作相匹配,解决了AI视频生成中将语音与面部动作同步这一极具挑战性的难题。

2、应用场景与潜力

Veo3的出现为电影制作人、内容创作者以及广告商等带来了巨大的便利和全新的创作思路。

创作者现在可以使用自然语言提示,指定希望与视频内容一同生成的音频类型。

例如,他们可以描述一个场景,要求生成与之匹配的背景音乐、环境音效以及角色对话,Veo3能够根据这些提示生成相应的视频和音频内容。

这大大简化了视频创作的流程,降低了创作成本,提高了创作效率。

在广告领域,Veo3可以帮助广告商快速生成各种广告视频,根据不同的产品和目标受众,生成具有吸引力的视觉和音频内容,从而提高广告的效果。

此外,Veo3还可以应用于教育、娱乐、游戏等多个领域,为这些行业带来更加丰富和生动的内容体验。

总而言之,谷歌的Veo3模型以其同步生成视频和音频的能力,为AI内容创作领域带来了重大突破。它不仅提高了视频生成的质量和逼真度,还为创作者提供了更加便捷和高效的创作工具。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O8mjvPYgF_UauD7A2j9gmL2w0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券