PhotoMaker V2,几张照片生成奥运风写真!
前两天,腾讯的PhotoMaker开源项目迎来了一个重磅更新——PhotoMaker V2!这个版本不仅更强大,还能在几秒钟内生成个性化的奥运风写真,简直太酷了!
什么是PhotoMaker V2?
如果你还不知道PhotoMaker,那你可真是错过了一个神器!PhotoMaker V2通过堆叠ID嵌入,可以在几秒钟内完成个性化的人物图像定制,而且无需额外的LoRA训练。你只需要输入几张自己的照片,然后通过提示词或者其他的参考图像,就能生成自己在各种场景、各种状态、各种风格的照片!
它是怎么做到的?
PhotoMaker V2的工作原理超酷炫!它利用多个输入图片来创建一个统一的ID嵌入表示,这些嵌入向量包含了人物的各种特征(如面部特征、发型、表情等)。然后利用这个ID表示来生成图像,从而保持人物特征的一致性。速度快、质量高,还可以根据文字描述生成定制化的照片!
性能优化
新版本在保持生成质量的同时,进一步提升了生成图像的ID真实度。现在用V100显卡,从每张图像1分钟提升到14秒!这简直是飞一般的速度!
一键启动包
好的东西当然要分享!PhotoMaker V2已经制作成了一键启动包,你只需点击即可使用,再也不用担心配置环境出现各种问题。
电脑配置要求
Windows 10/11 64位操作系统
8G显存以上英伟达显卡
CUDA >= 12.1
下载和使用教程
浏览器访问:软件会自动打开浏览器,界面如下所示。
技术亮点
高效的个性化生成:PhotoMaker通过将任意数量的输入ID图像编码到堆栈ID嵌入中,保留了ID信息。这种嵌入不仅全面封装了同一输入ID的特征,还能容纳不同ID的特征,为后续集成提供了可能。
面向ID的数据构建管道:研究团队提出了一个面向ID的数据构建管道,推动PhotoMaker的训练,使其在测试时表现出比基于微调的方法更好的ID保留能力,同时提供了显著的速度改进和高质量的生成结果。
广泛的应用范围:不仅能生成逼真的照片,还能通过艺术绘画、雕塑或老照片为输入,将上个世纪甚至古代的人带到本世纪。此外,还允许在保留ID属性的同时进行风格化,甚至可以通过简单地替换类词(如男人和女人)来实现性别和年龄的变化。
身份混合:如果用户提供不同ID的图片作为输入,PhotoMaker可以很好地整合不同ID的特征,形成一个新的ID。这可以通过控制输入图像池中身份图像的百分比或通过提示加权的方法调整合并比例来实现。
方法解析
PhotoMaker的方法主要分为以下几个步骤:
文本和图像编码:首先从文本编码器和图像编码器中获取文本嵌入和图像嵌入。
融合嵌入:通过合并相应的类嵌入(例如,男性和女性)和每个图像嵌入来提取融合嵌入。
堆叠ID嵌入:将所有沿长度维度的融合嵌入连接起来,形成堆叠的ID嵌入。
自适应合并:将堆叠的ID嵌入馈送到所有交叉注意力层,以便自适应地合并扩散模型中的ID内容。
这种方法在训练过程中使用相同ID的图像和被屏蔽的背景,但在推理过程中可以直接输入不同ID的图像,而不会出现背景失真,从而创建新的ID。
应用示例
将艺术品/老照片中的人物带入现实:通过以艺术绘画、雕塑或人物的旧照片为输入,PhotoMaker可以将上个世纪甚至古代的人带到本世纪为他们“拍摄”照片。
风格化:不仅具有生成逼真的人体照片的能力,还允许在保留ID属性的同时进行风格化。
更改年龄或性别:通过简单地替换类词,PhotoMaker可以在保持原始身份的同时实现性别和年龄的变化。
身份混合:可以通过控制输入图像池中不同ID的比例来定制新的ID,或者将与特定ID相关的图像对应的嵌入乘以系数,以控制其与新ID的集成比例。
比较与优势
与其他方法相比,PhotoMaker在高质量和多样化的生成能力方面具有显著优势。它不仅具有可编辑性、高推理效率,还拥有强大的ID保真度。更多的比较结果可以在研究团队的论文中找到。
结论
PhotoMaker的发布为个性化文本到图像生成领域带来了新的突破。它不仅提高了生成效率和质量,还扩展了应用范围,使得生成的图像更加多样化和逼真。这项技术的应用前景广阔,无论是在艺术创作、历史重现还是个性化头像生成等方面,都有着巨大的潜力。
以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送,也可以给我个星标⭐~谢谢你看我的文章。
领取专属 10元无门槛券
私享最新 技术干货