腾讯近日宣布开源其最新的图生视频模型 HunyuanVideo-I2V,这款参数量达 130 亿的模型,能够将静态图片快速转化为 5 秒 720P 的动态视频,并具备自动生成背景音效的能力,还包含了对口型功能,能够根据输入的音频信息,精准驱动人物图像的面部表情和口型变化,实现照片“开口说话”的生动效果,为内容创作带来更多可能性。
HunyuanVideo-I2V 模型的核心功能围绕高效的图生视频转换展开。用户只需上传一张静态图片,模型即可智能分析图像内容,并根据内置算法生成一段流畅自然的短视频。该模型不仅支持基础的图像动画化,更集成了以下关键功能:
720P 高清视频生成: 模型能够生成分辨率为 720P 的短视频,保证了视频输出的清晰度和观看体验。
自动背景音效生成: HunyuanVideo-I2V 能够根据视频内容智能匹配并生成合适的背景音效,提升视频的沉浸感和表现力。
精准对口型动画: 模型最引人注目的功能之一是其强大的对口型能力。用户上传人物照片并输入音频后,模型能够根据音频内容,驱动人物面部口型进行同步动画,实现逼真的“说话”或“唱歌”效果。这项技术为虚拟人物制作、教育内容创作等领域提供了新的工具。
尽管 HunyuanVideo-I2V 模型功能强大,但其官方发布的最低硬件需求——60GB 显存,根据模型参数量 130 亿 推算,若采用 4 位量化技术,模型理论上仅需约 7GB 显存空间。即使加上运行所需的中间变量,实际显存占用也应远低于 60GB。
目前,HunyuanVideo-I2V 的模型和代码已在 Github 等平台发布,感兴趣的开发者可以自行下载体验和测试。
HunyuanVideo-I2V 的发布,无疑为图生视频技术的发展注入了新的动力。其强大的对口型功能和开源策略,有望加速AI视频生成技术的普及应用,并推动相关领域的创新发展。模型的实际表现和硬件需求,以及开发者社区的后续反馈,将值得持续关注。
领取专属 10元无门槛券
私享最新 技术干货