开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

Google 发布全新多模态大语言模型 VideoPoet

文章来源：企鹅号 - 你的无际

Google 新发布的 VideoPoet，是基于多模态大语言模型的技术，这款 LLM 应用可以执行多种视频生成任务，例如文本生成视频、图像生成视频、视频风格化以及修补和扩展功能，甚至视频到音频的转化 VideoPoet 都能胜任。

根据博主@歸藏的 AI 工具箱介绍，目前已有的视频生成模型几乎都是基于扩散模型的技术，而 VideoPoet 不同于扩散方法的其他模型，它可以将多个视频生成功能集中到单个 LLM（大语言模型）中，并且利用 LLM 训练基础设施来提高生成效率。

因此，扩散模型支持的功能 VideoPoet 几乎都可以完成，其中比较亮眼的功能为：能够从视频内容中获取信息自动生成环境音频；通过深度和光线信息将视频转换为其他风格；用视频的最后一秒来预测下一秒的内容，以此生成一条长视频等。

VideoPoet 通过类似的方法可以连续生成视频内容，并且能在数次重复生成中，与现有视频保持连贯性。

发表于: 2023-12-212023-12-21 10:19:37
原文链接：https://page.om.qq.com/page/OmPTd_rRaKc-lfS1IqmT1CMA0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

相关快讯