谷歌推出文生视频模型Veo和新款文生图模型Imagen 3

文章来源：企鹅号 - 腾讯科技

腾讯科技讯 5月15日消息，据国外媒体报道，Alphabet 2024年I/O开发者大会于美国东部时间2024年5月14日13时（北京时间5月15日1时）在加利福尼亚州山景城海岸线露天剧场正式举行。在首日的主题演讲中，Alphabet推出了文生视频模型Veo，可以生成长度超过1分钟，分辨率最高1080P、具有多种视觉和电影风格的“高质量”视频；以及最新的文生图大模型Imagen 3。

虽然Alphabet的这两款模型不是革命性的模型，但它们被认为是Alphabet继续对抗OpenAI的文生视频Sora和文生图模型Dall-E 3的一种方式。目前，Dall-E 3几乎已经成为人工智能生成图像的代名词。Alphabet表示，Veo具有“对自然语言和视觉语义的高级理解”，可以创作出用户心中所想的任何视频，视频长度“超过一分钟”。此外，Veo也能够理解电影和视觉技术，如延时的概念。但实际上，这应该是人工智能视频生成模型的基础，

为了证明Veo不是为了窃取艺术家的工作，谷歌还与电影制片人和演员唐纳德·格洛维（Donald Glover），以及格洛维的创意工作室Gilga合作，展示了该模型的功能。在一个非常简短的宣传视频中，格洛维和Gilga的工作人员使用文本创建了两段视频。根据Alphabet的说法，Veo可以比以前的模型更好地模拟现实世界的物理现象，并且它也改进了如何渲染高清镜头。

“每个人都将成为导演，每个人都应该成为导演，”格洛维在视频中说。“所有这些的核心只是讲故事。我们越是能够相互讲述自己的故事，就越能相互理解。”

除了看到一台机器试图用算法重现人类艺术家的作品这种病态的好奇心之外，是否有人真的想看人工智能生成的视频还有待观察。但这并没有阻止Alphabet或OpenAI推广此类工具，并希望它们有用。从周二开始，Alphabet的VideoFX工具将为一些创作者提供Veo使用权限。Alphabet表示，Veo还将提供给YouTube短视频（YouTube Shorts）和其他产品。如果Veo最终成为YouTube Shorts的内置功能，至少在这个功能上，YouTube Shorts将能够超过TikTok。

至于Imagen 3，Alphabet作出了常规的承诺：这是该公司“最高质量”的文生图模型，具有“难以置信的细节水平”，能够生成“照片般逼真的图像”。当然，真正的测试将是看它与Dall-E 3相比如何处理提示词。Alphabet表示，Imagen 3处理文本的能力比上一代产品更好，而且它在处理长提示词的细节方面也更智能。

谷歌还与韦克莱夫・让（Wyclef Jean）和比约恩（Bjorn）等唱片艺术家合作测试人工智能音乐工具Music AI Sandbox。这套人工智能音乐创作工具将与Suno等人工智能音乐应用展开竞争。（编译/无忌）

发表于: 2024-05-152024-05-15 03:49:50
原文链接：https://page.om.qq.com/page/ObShUR3RYGoKtOu1RrplTc-A0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

谷歌推出文生视频模型Veo和新款文生图模型Imagen 3

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐