利用神经网络编辑图片的调研

作者介绍:郑宇,高级工程师, 曾在东方梦工厂担任软件工程师。目前就职于腾讯上海NEXT Studio,目前主要专注于强化学习和图像方面。

今年GDC大会上,Google演示了基于当下热门的神经网络技术GAN(生成式对抗网络)来做图片编辑的技术,用户可以在图片库中选择一张人脸的照片,对其进行局部的更改,神经网络会自动在更改区域以外的部分进行适配性修改。

比如,在额头中间部分涂黑,那么神经网络会自动在整个额头部分添加头发,再比如,在紧闭的嘴中间涂白,那么会自动变成露牙齿嘴张开的模样。理论上可以极大的提升美术编辑的速度,因为修改图片不再是在像素层面,而是根据用户的修改进行整体的调整,只需简单几笔就可以完成。

但是该技术还存在一些不成熟的地方,所以目前实际应用价值有限(参见本文后面的缺陷部分)。

效果展示1

左侧图为原始图片,中间图片为在嘴唇处涂白后的效果,右侧图片为在额头中间区域涂黑的效果。

效果展示2

左上图为原始图片,右上图为点击Col按钮选取涂抹的颜色(白色),下左图为涂白后去除胡须的效果。

原理

作者结合两种生成式神经网络模型,VAE和GAN,构建了一种新的网络IAN(Introspective Adversarial Network),基本原理是VAE训练模型比较稳定,但是会丢失低频信号,GAN模型训练中不稳定,但是细节保持较好,所以作者用GAN中的discriminator(辨别网络)来提取特征,然后输入VAE模型的Encoder部分,最后将编码(latent space)输入GAN模型中的generator(生成网络)。如下图所示。

安装和运行

sudo pip install https://github.com/Lasagne/Lasagne/archive/master.zip
sudo pip install path.py
sudo apt-get install python-tk python-pil python-scipy python-numpy 
git clone https://github.com/ajbrock/Neural-Photo-Editor

然后下载IAN_simple.npz( https://drive.google.com/open?id=0B3_iVBZsC4GGck5WWWc0R0dvT1U ),替换掉 Neural-Photo-Editor中的同名文件。

将 layers.py 中第15行代码从

import lasagne.layers

改为

from lasagne.layers import *

执行操作:

THEANO_FLAGS='floatX=float32' python NPE.py

常用操作:在打开的窗口,在左下角输入数字来选取原始的图片,点击infer按钮可以恢复到原始图片,点击col按钮选择涂抹的颜色,滑动最下方的slider,可以涂抹影响的范围。主要修改是在图片上完成,尽量不要在图片下方的latent space上修改,否则结果是无法预期的。

缺陷

  1. 没法对细节进行修改。使用上和传统的图片编辑不同,可能会有不适应的地方,比如要修掉图片上的一个噪点,那么涂白会影响到图片的其他部分,造成较大的修改。
  2. 修改存在路径或历史依赖。因为VAE的特点,比如在修改时如果不先把脸部模型变宽就直接在眼睛周围涂黑,实际上会生成头发,而不是画出墨镜。
  3. 目前处理的脸部照片还是分辨率较低的模型,比如google技术演示时使用的是64*64分辨率的照片,这是因为训练时使用的数据库中的照片分辨率就不高(提高分辨率会造成训练时间和难度增大)。
  4. 理论上用户可以对任意输入的图片进行修改,但是对于特定的照片,可能效果不明显,因为相对用户添加的个性化照片,之前的数据库太庞大了,不会针对用户输入的图片进行特定的优化处理。

参考

  1. Neural Photo Editing with Introspective Adversarial Networks
  2. http://ijdykeman.github.io/ml/2016/12/21/cvae.html

原创声明,本文系作者授权云+社区-专栏发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

郑宇的专栏

1 篇文章1 人订阅

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏WOLFRAM

Mathematica 11.1.1 中文版已发布

1153
来自专栏机器学习人工学weekly

机器学习人工学weekly-2018/6/10

1. MIT脑科学课程视频,虽然跟工程不太一样,但是cognitive science也是很重要

1066
来自专栏游遵文的专栏

机器学习优化算法:梯度下降(Gradient Descent)

优化算法 ( Optimization Algorithm ) 是机器学习理论中重要的组成部分,每年 ICML 会议中,总会有很多关于优化算法 Paper 以及...

4591
来自专栏李蔚蓬的专栏

2018.02.04.一周机器学习周记

  (临近春节,亲朋好友来往频繁,昨日还应邀前往潮州宾馆参加了校友会举办的会议,进度相对受制)

643
来自专栏机器学习算法与Python学习

基于Python-ChatterBot搭建不同adapter的聊天机器人(使用NB进行场景分类)

chatterbot是一款python接口的,基于一系列规则和机器学习算法完成的聊天机器人。具有结构清晰,可扩展性好,简单实用的特点。本文通过chatterbo...

4339
来自专栏深度学习与计算机视觉

TensorFlow-Slim图像分类库

TensorFlow-Slim图像分类库 TF-slim是用于定义,训练和评估复杂模型的TensorFlow(tensorflow.contrib.slim)的...

7016
来自专栏Jack-Cui

Caffe学习笔记(一):CIFRA-10在Caffe上进行训练学习

运行平台:Ubuntu14.04     安装完Caffe后,如何开始学习Caffe呢?一个不错的方法就是从Caffe自带的examples开始学起。在caff...

2267
来自专栏机器之心

资源 | 清华大学发布珠算:一个用于生成模型的Python库

选自Github 机器之心编译 参与:吴攀 5 月 27-28 日,机器之心主办的第一届全球机器智能峰会(GMIS 2017)将在北京 898 创新空间举行。在...

33710
来自专栏程序生活

斯坦福tensorflow教程(四) 贪婪执行Eager Execution

1465
来自专栏计算机视觉战队

实战——目标检测与识别

最近总是有很多入门的朋友问我,我进入计算机视觉这个领域难不难?是不是要学习很多知识?到底哪个方向比较好?。。。。。这些问题其实我也不好回答他们,只能衷心告诉他...

2715

扫码关注云+社区