首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

开源就涨了4.5k星​!一个爆火的AI写真工具开源了!InstantID

最近有一款开源的AI写真生成工具火遍网络!它能通过一张照片生成各种风格的写真图!

项目现在已经开源1周多,目前已经获得4.5k⭐!足以见得大家对他的喜欢!

InstantID是什么?

InstantID是一种基于扩散模型的图像生成技术,专注于实现零次(zero-shot)身份保留(Identity-Preserving)的个性化图像合成。

该技术允许用户仅使用一张面部图像,就能在多种风格中生成个性化的图像,同时确保高保真度

InstantID的设计旨在解决现有个性化图像合成方法在实际应用中的一些限制,例如高存储需求、漫长的微调过程以及需要多张参考图像。

InstantID不需要训练任何额外的模型,也不需要测试时的微调,只需要一次前向推理,就能与社区中的流行的预训练文本到图像的扩散模型无缝集成,作为一个灵活的插件。

InstantID是一个来自中国的开源项目,由InstantX团队开发。主要的成员是小红书的员工。

InstantID是如何做到的?

InstantID的核心是设计了一个新颖的IdentityNet,通过强加语义和弱空间条件,将面部和地标图像与文本提示相结合来引导图像生成。IdentityNet能够捕捉面部图像的详细特征,并在生成过程中保持面部的一致性。

同时,IdentityNet还能够根据文本提示的内容,调整图像的姿态、表情、风格等,实现图像的个性化编辑。

InstantID的效果非常惊艳,它能够在各种风格中生成高保真的个性化图像,例如卡通、油画、素描、动漫、游戏等。用户只需要输入一张面部图像和一段文本描述,就能得到满意的结果。

InstantID不仅能够生成各种风格的个性化图像,还能够保持文本的可编辑性,即用户可以随时修改文本描述,来改变图像的生成效果。

InstantID 的创新之处主要有三个方面:

人脸特征提取:InstantID 利用预训练的人脸编码器,比如 InsightFace 的 antelopev 模型,来提取强语义的人脸特征,以增强图像生成的语义准确性。这样,扩散模型就能更好地识别和保留人脸的细节,比如眼睛、鼻子、嘴巴等。

Cross-Attention 机制:InstantID 通过解耦的交叉注意力机制,将人脸特征作为 Image Prompt 嵌入,增强文本提示的效果,同时保持对生成图像的精细控制。这样,扩散模型就能更好地根据文本的要求,来调整图像的风格,比如颜色、光照、背景等。

IdentityNet:InstantID 引入 IdentityNet 对人脸图像进行编码,通过强语义和弱空间的条件控制,进一步提升 ID 的保真度。IdentityNet 是一个可插拔的模块,它可以和任何预训练的文本到图像扩散模型兼容,而无需重新训练。

项目地址:

https://instantid.github.io/

代码地址:

https://github.com/InstantID/InstantID

体验地址:

https://huggingface.co/spaces/InstantX/InstantID

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OLOd4KHFchwHkSc-7_rylJfA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券