专栏首页Jack-CuiAI会P图:你来描述,我来P

AI会P图:你来描述,我来P

本文 GitHub https://github.com/Jack-Cherish/PythonPark 已收录,有技术干货文章,整理的学习资料,一线大厂面试经验分享等,欢迎 Star 和 完善。

最近,Transformer 是一个非常火的方向。

比如曾经介绍过的,DALL·E 可以魔法一般按照自然语言文字描述直接生成对应图片。

例如,输入文本:鳄梨形状的扶手椅。

AI 生成的图像:

再比如曾经出过的教程:

用自己训练的AI玩王者荣耀是什么体验?

这两天,OpenAI 又出新活,StyleCLIP 闪亮登场。

StyleCLIP 根据文本描述,修改图片,精准PS。直接看效果:

让奥巴马留莫西干发型一键卸妆,让猫猫变萌,老虎变狮子,建筑风格变成哥特式建筑

只需一张图片一段描述,StyleCLIP就可以对图片进行修改和创作。

AI文字理解,图片修改和创作,一步到位。再也不用怕网络P图大师们的“满分理解”和骚操作了。

今天继续手把手教学,玩转StyleCLIP准备好了吗?

StyleCLIP

StyleCLIP顾名思义,结合了StyleGANCLIP模型。

前者,是当下主流的图像生成算法,后者,是大规模图文预训练模型。

两者结合,就可以实现文本到图像的编辑。

StyleGAN通过在隐空间(latent space)控制隐藏特征(latent code)来控制图片的属性,生成风格各异的图像。

StyleGAN应该都很熟悉,简单介绍下CLIP

CLIP就是Contrastive Language-Image Pre-Training的缩写,即大规模图文预训练模型,也是OpenAI的近作。

CLIP的文本和图像编码器都是基于Transformer结构的。

Transformer的详细教程,可以看我之前发过的文章:

保姆级教程:硬核图解Transformer

CLIP算是迈出了多模态的第一步,可以用于多类型图文联合检索。

本质上,CLIP模型检索的原理是比较特征空间中两个特征编码的余弦相似度,所以并不局限在文本特征与图像特征的比较。

比如,文本-图像检索。

检索文本:“Tokyo tower at night.”

检索文本:“People come and go on the street.”

再比如,文本+文本-图像检索。

检索文本1:“Flower”,检索文本2:“Blue sky”

StlyCLIP主要是利用CLIP模型的力量来实现基于文本的语义图像操作,这种操作的好处是,它既不局限于预设的操作方向,也不需要额外的手动操作

StlyCLIP整体思想就是:利用CLIP为基础的损失修改StyleGAN输入的隐藏特征,从而响应用户提供的文本形式。

比如根据用户文本:Orange、Big Ears、Big Nose、Cute改变原图。

主要使用了三种技术:

  • Optimizer:以文本为指导的 latent 优化,其中 CLIP 模型被用作一个损失网络,这是一种通用方法,但需要几分钟的时间来进行优化,以对图片进行操作;
  • Mapper:训练一个用于特定文本提示的 latent 残差映射器。在隐空间中给定一个起点(需要操作的输入图像),映射器在隐空间中产生一个局部步骤;
  • global dir:一种在 StyleGAN 的 style space 中将文本提示映射到输入无关(全局)方向(global direction)的方法,提供了对操作强度和解耦的控制。

更详细的内容,可以直接看论文:

https://arxiv.org/pdf/2103.17249.pdf

算法测试

StyleCLIP完全开源,项目地址:

https://github.com/orpatashnik/StyleCLIP

如果不想搭建开发环境,可以直接用Google Colab工程:

https://colab.research.google.com/github/orpatashnik/StyleCLIP

运行Google Colab代码有些问题,需要自己修改下代码:

迭代100次,大约3分钟,运行结果:

本地搭建环境也不复杂,StyleCLIP需要先配置CLIP,然后安装第三方库。

权重文件在 Google Drive 下载很慢,我已经提前为大家准备好了直接下载即可提取码:46pz):

https://pan.baidu.com/s/1n_CNA_ypxJKuW0rf-4CrZg

其它没什么难度,就不展开说明了。

絮叨

Transformer真的火,有必要好好学一学。

我是 Jack ,我们下期见。

文章转自我的公众号: https://mp.weixin.qq.com/s/4LNAwEoGjH8YYbp2w8Z9Rg

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 机器学习工具吐槽大会:回归模型连p值都不输出,文档描述惨不忍睹 | 你也来吐一波

    不是我要问,是一个叫做@Train_Smart的网友,在Reddit论坛开帖发问了:

    量子位
  • 2292 图灵机游戏

    2292 图灵机游戏 时间限制: 1 s 空间限制: 64000 KB 题目等级 : 黄金 Gold 题目描述 Description 【Shad...

    attack
  • 绝悟之后再超神,腾讯30篇论文入选AI顶会ACL

    近日,国际计算语言学协会年会ACL在官网(https://www.aclweb.org)公布了2020年度的论文收录名单,其中腾讯共有30篇论文入选,入选论文数...

    AI科技大本营
  • 从机器学习先驱到最坚定的AI反对派:一个大师的复杂内心戏

    大数据文摘
  • GitHub上能让你重拾学习热情的AI项目:权游预测/AI作画/与AlphaZero对弈

    4月15号《权力的游戏》第八季开播啦!从第一季开始,就有同学告诉小编“永远猜不出来主角是谁,你以为他是主角?不好意思,下集就领便当了” 。

    Datawhale
  • 从香农熵到手推KL散度:一文带你纵览机器学习中的信息论

    机器之心
  • 朴素贝叶斯详解

    总第78篇 一、统计知识 01|随机事件: 1、概念 随机事件是在随机试验中,可能出现也可能不出现,而在大量重复试验中具有某种规律性的事件叫做随机事件(简称事件...

    张俊红
  • 给GAN一句描述,它就能按要求画画,微软CVPR新研究 | 附PyTorch代码

    让AI认得图像,根据自己的理解给出一段叙述,已经不是什么新鲜事了。从图像到文字容易,把这个过程反过来却很难。

    量子位
  • 给GAN一句描述,它就能按要求画画,微软CVPR新研究 | 附PyTorch代码

    让AI认得图像,根据自己的理解给出一段叙述,已经不是什么新鲜事了。从图像到文字容易,把这个过程反过来却很难。

    深度学习与Python
  • 给GAN一句描述,它就能按要求画画,微软CVPR新研究 | 附PyTorch代码

    让AI认得图像,根据自己的理解给出一段叙述,已经不是什么新鲜事了。从图像到文字容易,把这个过程反过来却很难。

    代码医生工作室
  • 人工智能基础(高中版)教材补充和资源分享之一 无限光明的未来、过去和现在

    这些天,抽空读了一下人工智能基础(高中版),觉得作为高中科普教材,还是非常不错的,五星好评推荐。

    zhangrelay
  • 贝叶斯估计、最大似然估计、最大后验概率估计

    贝叶斯估计、最大似然估计(MLE)、最大后验概率估计(MAP)这几个概念在机器学习和深度学习中经常碰到,读文章的时候还感觉挺明白,但独立思考时经常会傻傻分不清楚...

    Tyan
  • 【腾讯AI LAB出品】日漫风的腾讯大楼,静守时光,以待流年

    渐渐地,残星闭上昏昏欲睡的眼睛,在晨空中隐隐作退,夜空似藏青色的帷幕,点缀着闪闪繁星,让人不由深深地沉醉。AI Lab 出品的视频滤镜和新海诚滤镜,便是聚光灯下...

    TEG云端专业号
  • AI变脸指南丨你见过杨幂版黄蓉吗?

    原来,是有一位B站UP主“换脸哥”,用AI技术将杨幂的脸“贴”在了朱茵饰演的黄蓉脸上。

    磐创AI
  • 朱茵变杨幂,流量一个亿丨AI变脸指南

    原来,是有一位B站UP主“换脸哥”,用AI技术将杨幂的脸“贴”在了朱茵饰演的黄蓉脸上。

    量子位
  • 朱茵变杨幂,流量一个亿丨AI变脸指南

    原来,是有一位B站UP主“换脸哥”,用AI技术将杨幂的脸“贴”在了朱茵饰演的黄蓉脸上。

    小小詹同学
  • 一文看尽Google I/O大会:AI打电话以假乱真,TPU 3.0正式发布

    开场一句Make good things together,然后就向全世界展示了AI将会带来的美好世界,2小时内,黑科技亮眼,情怀满分。

    量子位
  • Pornhub,一个神奇的网站

    网龄超过3年的年轻人,很少有不知道Pornhub的(这事不能问太细)。作为一个全球福利网站中的扛把子,Pornhub在Alexa上最高排名前30,2018年全年...

    sergiojune
  • 珀恩哈珀,一个神奇的网站

    网龄超过3年的年轻人,很少有不知道Pornhub的(这事不能问太细)。作为一个全球福利网站中的扛把子,Pornhub在Alexa上最高排名前30,2018年全年...

    用户1564362

扫码关注云+社区

领取腾讯云代金券