一键点、万物动！腾讯混元联合清华、港科大推出图生视频大模型“Follow Your Click”

原创

混元

修改于 2024-06-26 02:06:24

3180

3月15日，腾讯混元和清华大学、香港科技大学联合推出全新图生视频模型“Follow-Your-Click”。

基于输入模型的图片，只需点击对应区域，加上少量提示词，就可以让图片中原本静态的区域动起来，一键转换成视频。

当前的图生视频大模型中，一般的生成方法不仅需要用户在提示词中描述运动区域，还需要提供运动指令的详细描述，过程较为复杂。

另外，从生成的效果来看，现有图像生成视频技术在移动图像的指定部分上缺乏控制，生成的视频往往需要移动整个场景，而不是图像上的某一个区域，精准度和灵活性上有所欠缺。

为了解决这些问题，腾讯混元大模型团队、清华和港科大的联合项目组提出了更实用和可控的图像到视频生成模型Follow-Your-Click，带来更加便捷的交互，也让图片“一键点，万物动”成为现实。

图像到视频生成的技术在电影内容制作、增强现实、游戏制作以及广告等多个行业的AIGC应用上有着广泛前景，是2024年最热门的AI技术之一。

腾讯混元大模型团队正在持续研究和探索多模态技术，拥有行业领先的视频生成能力。

论文：https://arxiv.org/abs/2403.08268

主页：https://follow-your-click.github.io/

代码链接：https://github.com/mayuelala/FollowYourClick

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。