1月26日,腾讯混元多模态上新,正式发布混元图像3.0图生图版本(HunyuanImage 3.0-Instruct),支持图片编辑与多图融合。目前,该模型已在元宝中同步上线,用户可直接在元宝全端或PC访问腾讯混元官网体验。
混元图像3.0图生图支持多样化的图片编辑与多图融合能力,比如增、删、改、风格变换、老照片修复、人物与文字修改等图片编辑能力,以及把多张照片中的人物或元素提取出来合成合照与生成新图片等。该模型上线元宝,可以为用户提供贴近日常需求的多元场景,如制作表情包、虚拟人物合拍、社交分享、电商海报设计、游戏角色定制、创意图片制作等;也可用于专业创作领域的快速提效,帮助用户节省时间,提升创意输出。
混元图像3.0图生图总参数量80亿(激活参数约13亿),采用混合专家(MoE)架构,基于混元图像3.0(HunyuanImage 3.0)的原生多模态架构基础模型,引入图生图的多任务数据,通过指令微调和后训练,实现了对用户输入图像和编辑指令的深度理解与处理。
混元图像3.0图生图是一款能理解输入图像、会思考的图像编辑模型。模型在收到用户输入的图片和提示词后,首先会先理解图像内容本身,并基于用户的提示词进行推理,推理出具体的需要进行编辑的区域、详细的编辑步骤以及需要保留的图像区域,形成更加详细的编辑指令,实现良好的输出效果。