前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >在线教程|图灵奖得主Yann LeCun盛赞!小红书开源InstantID,一张原图即可定制多种风格写真

在线教程|图灵奖得主Yann LeCun盛赞!小红书开源InstantID,一张原图即可定制多种风格写真

作者头像
HyperAI超神经
发布2024-05-13 16:58:42
1760
发布2024-05-13 16:58:42
举报
文章被收录于专栏:HyperAI超神经HyperAI超神经

作者:十九

编辑:李宝珠,三羊

来自小红书的 95 后工程师联合北大团队发布了开源项目「InstantID」,只需上传一张照片,就能轻松定制多种风格的 AI 写真。

不久前,一群来自小红书的 95 后工程师联合北大团队发布了开源项目「InstantID」,只需上传一张照片,这款 AI 写真神器就能轻松定制多种风格的 AI 写真,告别繁琐修图。

InstantID 一经发布就引起了广泛关注,GitHub 收藏量达到了 9.9K,图灵奖得主 Yann LeCun 也在自己的社交账号上转发了团队以其形象生成的示例,表示支持。

过去,主题驱动的文本到图像生成,通常需要在多张含有该主题(如人物、风格)的数据集上进行训练,其代表性方案包括 DreamBooth、LoRAs 等,但此类方案的高存储需求、耗时的微调过程,让很多用户望而却步,导致其无法在真实场景中得到快速应用,而 InstantID 的出现则打破了这个僵局。

InstantID 架构

InstantID 的工作原理主要分为三部分:

* ID Embedding:通过预训练的面部识别模型,将语义人脸特征提取为 Face Embedding。该嵌入富含语义信息,如面部特征、表情、年龄等,为后续图像的生成提供坚实基础。

* Image Adapter:引入轻量级适配模块,将提取的身份信息与文本提示结合。通过解耦的交叉注意力机制,图像和文本能够独立地影响图像的生成,在保持身份信息的同时还可以对图像风格进行精细控制。

* IdentityNet:它通过强语义条件(如面部特征的详细描述)和弱空间条件(如面部关键点的位置)来编码参考面部图像的复杂特征。生成过程由 Face Embedding 引导,无需文本信息,只需针对新添加的模块进行更新,保持预先训练文本到图像模型的冻结,确保灵活性。

把复杂留给代码,把简单留给用户!InstantID 不仅在技术上实现了零次个性化图像合成的突破,同时也在用户体验上也做到了极致的简洁和直观。无论你是设计小白还是艺术大师,都能在该平台上,轻松创造出个性化的图像。具体应用场景有:

* 多 ID 和多风格合成

InstantID 一键实现「跨国合作」!

* 风格化合成

只需输入一张人脸照片,就能生成多种具有个性化风格的 AI 写真。

* 逼真合成

这些图真的是合成的吗?

* ID 插值

还可以将杨幂和 Taylor 的形象融合。(ps:利用该功能,还可以根据父母双方面部权重,预测未来孩子长相哦!)

* 新视角合成

一张原图+一张风格参考图=百变大咖

* 非人像合成

人物和动物融合会发生什么?

这么多风格供你挑选,小伙伴们是不是等不及来试一下啦!不要着急,HyperAI超神经已经上线了「InstantID 个性化写真生成 Demo」教程,该教程为大家搭建好了环境,点击克隆即可一键启动,快来实现你的「七十二变」吧!

公共教程地址:

https://hyper.ai/tutorials/31559

为了让大家更快上手,B 站 up 主「青龙圣者」录制了生动有趣的教学视频↓

小编输入了马斯克图片,以雷军在发布会上的潇洒站姿作为参考,效果也太神奇了吧!

跃跃欲试的小伙伴们跟随小编的步骤抓紧尝试一下吧!

Demo 运行

1. 登录 hyper.ai,在「教程」页面,选择「InstantID 个性化写真生成 Demo」。点击「在线运行此教程」。

2.页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。点击右下角「下一步:选择算力」。

3.跳转后,选择「NVIDIA GeForce RTX 4090 」,点击「下一步:审核」。新用户使用下方邀请链接注册,还可获得 4 小时 RTX 4090 + 5 小时 CPU 的免费算力时长!

HyperAI超神经专属邀请链接(直接复制到浏览器打开):

https://openbayes.com/console/signup?r=6bJ0ljLFsFh_Vvej

4.点击「继续执行」,等待分配资源,当状态变为「运行中」后,点击「打开工作空间」。

5.在启动页新建一个终端会话,输入下面的命令。

代码语言:javascript
复制
cd InstantID

6.输入下面的命令,运行 Gradio demo。

代码语言:javascript
复制
python gradio_demo/app.py

7.当命令行出现「Running on local URL: https://0.0.0.0:8080」后,拷贝右侧 API 地址到浏览器地址栏中,即可访问 InstantID 页面。请注意,用户需在实名认证后才能使用 API 地址访问功能。

效果展示

1.打开 InstantID 页面,上传人物图片,上传参考图片。其中,参考图片的作用是用来固定人物在图中的位置。

2.完善下列参数调整。

*在「Prompt」提示词框内写需要生成图片的关键词,通常根据初始图片来进行提示,若上传的图片是个男人,可以写 「a man」。

*点击「Eable Fast Inference with LCM」选项,如果不开生成图速度会稍微慢些。

*「Style template」风格选择器,可完善提示词,里面有「Watercolor」水彩、「Line Art」线条风格等效果。

*「IdentityNet strength (for fidelity)」人脸强度或 ID 强度,作用于初始导入的人物图,参数越高,生成的图片和该人物图越像,默认数值 0.8。

*「Image adapter strength (for detail)」图片参考强度,作用于参考图,强度决定生成图片与参考图的相似度,默认数值 0.8。

*「Advanced Options」高级参数调整。

*「Negative Prompt」,负面提示词,可以填一些不想最终生成图片含有的内容,比如避免低质量的词等。

*「Number of sample steps」、「Guidance scale」、「seed」,选择默认数值即可。

*「Randomize seed」随机种子,打开。

*「Enhance non-face region」强化非面部区域,打开后会增强风格选择器的权重。

3.点击「Submit」,5 秒即可生成图片。

目前,HyperAI超神经官网已上线了数百个精选的机器学习相关教程,并整理成 Jupyter Notebook 的形式。

点击链接即可搜索相关教程及数据集:

https://hyper.ai/tutorials

以上就是 HyperAI超神经本次分享的全部内容了,如果大家看到优质项目,欢迎后台留言推荐给我们!另外,我们还建立了「Stable Diffusion 教程交流群」,欢迎小伙伴们入群探讨各类技术问题、分享应用效果~

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2024-05-11,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 HyperAI超神经 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
容器服务
腾讯云容器服务(Tencent Kubernetes Engine, TKE)基于原生 kubernetes 提供以容器为核心的、高度可扩展的高性能容器管理服务,覆盖 Serverless、边缘计算、分布式云等多种业务部署场景,业内首创单个集群兼容多种计算节点的容器资源管理模式。同时产品作为云原生 Finops 领先布道者,主导开源项目Crane,全面助力客户实现资源优化、成本控制。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档