学界 | 明星脸、花鸟都不是问题,微软中科大联合推出细粒度图像合成模型

眼见的就一定为真?现在的人工智能已经能合成高清大图了!

AI 科技评论按:最近推出的几个计算机视觉领域中的突破性论文在图像合成领域展示了新的可能,他们能够创造非常自然的图像,并且合成无比真实甚至同时保持面部信息的人脸图像。论文《CVAE-GAN:一种通过非对称训练的细粒图像生成模型》就是其中之一,它是由微软和中国科学技术大学的研究团队在威尼斯举办的 ICCV 2017 上展示的一种方法,它是一种基于变分自动编码器生成对抗网络的图像生成模型,能够在特定细粒类别中合成自然图像。特定细粒度的类别包括特定的人脸,如名人或者真实世界的物体,如特定类型的花或者鸟。

图中都是生成的图像。不仅逼真,而且每类图像中也有一定的差异。

新的建模方法带来新的表现

微软研究院的 Dong Chen、Fang Wen 和 Gang Hua,微软研究院实习生 Jianmin Bao 以及中国科学技术大学的李厚强教授一直在研究如何构建更好有效的自然图像生成模型。在计算机视觉领域存在一个关键问题:如何通过改变与世界上任何图片自然分布相关的有限数量的隐变量,来生成多样化且逼真的图像。该问题的挑战主要在于找到一个生成模型能够捕捉到这些数据的分布。他们选择使用生成对抗网络与变分自动编码器相结合的方法作为学习框架。该方法将任何图像建模为概率模型中标签和隐属性的组合。通过改变输入生成模型细粒类别的标签(比如,特定的鸟的类别,如金莺或者八哥,或者特定人的人脸),该团队能够使用根据随机抽取的隐变量的值合成属于该类别的图像。微软雷蒙德研究院首席研究员Gang Hua解释说:「直到最近,才有深度学习模型能够从真实世界的图像中对某类物体的图像分布建模,使得我们能够从模型中得到基本的图像合成方式。」

首席研究员 Gang Hua 表示,该方法有两个新颖的方面:首先,对于判别网络即分类器,使用了交叉熵损失函数进行训练,但是对于生成网络,使用了平均差值目标函数(mean discrepancy objective)。由此产生的非对称损失函数及其对机器学习方面的影响很激动人心。非对称损失实际上使得 GAN 的训练变得更加稳定,这种非对称损失函数能够解决训练原始 GAN 中的不稳定的问题,尤其是能够解决匹配两个不重叠分布时遇到的数值难题。

另一个创新在于采用了一种新颖的编码器结构,它能够学习到隐空间之间的关系,并使用成对的特征匹配了保留合成图像的结构信息。

在自然图像的实验中,在自然界中的真实图片,如人脸,花朵和鸟类等,研究人员展示了他们的机器学习模型在某个特定的类别中,能够合成非常真实且多样性的图像。该模型的潜在应用方向覆盖了包括图像修复,数据增强,和更好的人脸识别模型等所有方面。

该技术解决了图像生成中的基本挑战,即个体因素的可控制性问题。这使得该模型能够生成我们想要的样子的图片。

合成人脸

如何利用这个能力将合成花或者鸟的的图片变得更加真实?以人脸为例,在包含个体身份信息的上下文的情况下,人脸是自然中能够捕捉到的最复杂的图像。在本月盐湖城举办的 CVPR 2018的「面向开放式身份的保持人脸合成」(Toward Open-Set Identity preserving Face Synthesis)任务中,研究人员开发了一个基于 GAN 的框架,可以解耦人脸的身份信息和属性信息,其中属性包含诸如鼻子和嘴的形状甚至年龄,以及环境因素,比如光线状况,脸上是否有化妆等等。之前的保持身份人脸合成方法的主要局限在于只能合成包含在训练集中的已知身份人脸,但是现在研究人员开发了一种在开放集中也能保持身份的人脸合成方法,也就是说,能够合成训练集外的人脸。为了能够做到这一点,他们使用了一种独特的方法,对于输入图片,先生成一个身份向量,将该身份向量与其他人脸图像(不是同一个人的人脸图像)结合,提取一个特征向量,例如姿势,情绪或者光线状况等。接下来,将身份向量和特征向量结合到一起,生成一张新的人脸图片。值得注意的是,该框架无须以任何方式标注或者分类任何面部属性。它使用非对称损失函数以更好的保持身份信息,并能够稳定机器学习的训练过程。它还可以有效地利用大量未标记的人脸图像进行训练(可以被看作是随机的面部图像),以进一步增强合成人脸的真实度和准确性。

人脸生成任务中,保持身份特征同时的属性迁移结果

一个有趣的应用方向:「茄子!」

该模型有一个有趣的应用方向,就是摄影师为几十个人拍一张合照,想要一张照片里几十个人都是笑着的瞬间是很难捕捉到的。使用该模型就能够让每个人都是微笑的,这跟单纯的图像编辑是完全不同的,因为每一个微笑的脸都是合成的,都是并没有在这个世界上发生过的,但是每个人的脸部真实身份得到了保留,这个面孔就是属于这个人的,身份信息在改变图像的过程中被保留了下来。

该模型的许多种可能的应用都会是有益于社会的,并且在图像识别,视频理解甚至艺术方向都有着不断的进步。

论文地址:

http://openaccess.thecvf.com/content_ICCV_2017/papers/Bao_CVAE-GAN_Fine-Grained_Image_ICCV_2017_paper.pdf

via Microsoft Research Blog,AI 科技评论编译

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2018-06-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技评论

直播 | CMRC2018 评测任务冠军队伍分享: 如何从数据、模型和训练角度提升阅读理解系统性能?

2018 年 10 月 19 日,第十七届中国计算语言学大会(CCL2018)在长沙召开,追一科技团队作为中文机器阅读理解(CMRC2018)评测任务的冠军队伍...

1103
来自专栏AI科技评论

大会 | 腾讯AI Lab 21篇CVPR 18录用论文详解

AI 科技评论按:CVPR 2018 日前已公布录用名单,腾讯 AI Lab 共有 21 篇论文入选。本文转载于「腾讯 AI 实验室」, AI 科技评论经授权转...

4265
来自专栏腾讯技术工程官方号的专栏

CVPR 2018 | 腾讯AI Lab入选21篇论文详解

腾讯AI Lab共有21篇论文入选,位居国内企业前列,我们将在下文进行详解,欢迎交流与讨论。

1.9K18
来自专栏CVer

YOLOv3:你一定不能错过

原标题: YOLOv3: An Incremental Improvement 原作者: Joseph Redmon Ali Farhadi 翻译者: Am...

2K20
来自专栏量化投资与机器学习

比较13种算法在165个数据集上的表现,你猜哪个最好?

2805
来自专栏AI科技评论

论文 | Twitter在超分辨率技术上取得新进展,能还原打码图片

AI科技评论按:受到万众瞩目的ICLR已经于今天在法国土伦召开。该大会由Yann LeCun 、 Yoshua Bengio 等几位行业顶级专家于2013年发起...

3744
来自专栏人工智能

宽度学习系统:一种不需要深度结构的高效增量学习系统

本文是对陈俊龙教授团队“Broad Learning System: An Effective and Efficient Incremental Learning ...

6135
来自专栏新智元

【Hinton碰撞LeCun】CNN有两大缺陷,要用capsule做下一代CNN

【新智元导读】 在本次演讲中, Hinton讨论了用“capsule”作为下一代CNN的理由。 他解释了“标准”的卷积神经网络有什么问题?结构的层次太少,只有神...

3084
来自专栏企鹅号快讯

深度学习概述与发展历史-花书第一章解读(上)

我的整理/学习计划,主要以NG的DL课程为蓝本,以DL花书为主要阅读材料,以其他网课与BLOG相关内容为参考。NG的DL课程与花书有如下对应关系:课程一《神经网...

2216
来自专栏人工智能头条

面向图像分析应用的海量样本过滤方案

1142

扫码关注云+社区

领取腾讯云代金券