GAN正在成为新的深度学习


新智元报道

来源:Jordi Pont-Tuset,Google Research

编辑:文强

【新智元导读】计算机视觉顶会CVPR 2018召开在即,从接收的论文看,这届会议展现出了怎样的趋势?你不要不信,生成对抗网络GAN,正在成为新的“深度学习”。

又到了一年一度CVPR的时节。

当被接收的论文列表公布以后(点击这里查看所有论文列表),爱统计趋势的我们又有很多事情可以做了。

这一次,Google Research的研究科学家Jordi Pont-Tuset做了一个统计,根据论文题目,看深度学习的发展趋势。结果,他发现生成对抗网络(GAN)强势出击,大有取代“深度学习”(Deep Learning)之势。

下面这张图展示了CVPR 2018的论文题目中,关键词GAN、Deep,以及LSTM的对比:

可以看出,普通的“深度学习”已经在走下坡路,而且趋势明显。Jordi Pont-Tuset认为,这很可能是研究人员已经见惯不惯了。

与此同时,GAN则大幅抬头,有8%的论文标题中含有GAN(相比2017年增长了2倍多),已经不能说是少数,而是相当有分量的一个方向了。

此外,LSTM也出现下滑,可能是越来越多人开始关注并使用Attention的方法。

“深度学习”趋于饱和,GAN强势飞升

GAN的上升趋势并不是从CVPR 2018才开始的。下面这张图展示了从2013年到2017年CVPR期间,GAN(以及LSTM)在CVPR、ICCV和ECCV这三大计算机视觉顶会论文标题中出现的频次。统计者依然是Jordi Pont-Tuset。

尽管占比的绝对值不高(在2017年时为2.5%),但可以发现GAN从CVPR-16开始一飞冲天的趋势。

这种趋势在随后举行的ICCV 2017上更加明显,GAN在ICCV-17上已经超越了LSTM,并且占比达到了4%。

再来看“深度学习”,三大CV顶会的数据表明,历经2014年到2016年的火爆,从2017年开始,虽然还在增长(CVPR的稍微多一些),但都已趋于饱和。

GAN是新的“深度学习”?

需要指出,这里统计的仅仅是三大计算机视觉会议接收论文的标题里的关键词。

就像Jordi Pont-Tuset推测的那样,普通的“深度学习”可能已经为人熟知,如今在研究领域开始往更细的、更具体的方向发展,比如GAN。

生成对抗网络(Generative Adversarial Nets)在 Ian Goodfellow 等人2014年的论文《Generative Adversarial Nets》中提出,是非监督学习的一种方法,通过让两个神经网络相互博弈的方式进行学习。

GAN结构示意。来源:Slinuxer

生成对抗网络由一个生成网络(Generator)与一个判别网络(Discriminator)组成。生成网络从潜在空间(latent space)中随机采样作为输入,其输出结果需要尽量模仿训练集中的真实样本。判别网络的输入则为真实样本或生成网络的输出,其目的是将生成网络的输出从真实样本中尽可能分辨出来。而生成网络则要尽可能地欺骗判别网络。两个网络相互对抗、不断调整参数,最终目的是使判别网络无法判断生成网络的输出结果是否真实。生成对抗网络常用于生成以假乱真的图片。此外,该方法还被用于生成视频、三维物体模型等。

现在,《Generative Adversarial Nets》这篇论文的引用数量已经达到了3363次。

在一次Quora问答直播中,Yann LeCun表示,生成对抗性网络是近十年来最有趣的想法,是人工智能最值得期待的算法之一。

去年在接受吴恩达的采访时,Ian Goodfellow曾经说,GAN是生成模型的一种,实际上 GAN 能做的事情,很多其他生成模型也能做,如果GAN的训练能稳定下来,甚至像深度学习那么可靠,那么GAN就能真正发展起来。如果不能,那么GAN 将会被其他方法所取代。他有大约 40% 的时间都用在稳定 GAN 上面。

至少从这届CVPR看,GAN被取代的情况还完全不存在。

现在,有很多针对GAN的研究,除了Ian Goodfellow所在的谷歌和他之前所在的OpenAI,FAIR/NYU也是一大重镇。实际上,是FAIR/NYU最先把GAN带进了我们的视野,提出了LAPGAN,那是GAN第一次生成了逼真的高清图像,也是第一次得到媒体曝光。

另外一个重要阵营是伯克利+英伟达,他们专注超高清逼真图像和视频,无监督翻译,等等。伯克利的CycleGAN,利用对偶学习并结合GAN机制来优化生成图片的效果。英伟达则采取“渐进式生成”技术训练GAN,让计算机可以生成1024*1024大小的高清图片,几乎可以以假乱真。

除了图像生成,GAN的应用也已经拓展到了NLP和Robot Learning。

Ian Goodfellow在去年一次问答中表示,GAN是使用强化学习来解决生成建模问题的一种方式。“GAN的不同之处在于,奖励函数对行为是完全已知和可微分的,奖励是非固定的,以及奖励是Agent的策略的一个函数。”Goodfellow说:“我认为GAN基本上可以说就是强化学习。”

资料来源

1、CVPR 关键词统计:http://jponttuset.cat/are-gans-the-new-deep/

2、Ian Goodfellow问答:https://fermatslibrary.com/arxiv_comments?url=https%3A%2F%2Farxiv.org%2Fpdf%2F1406.2661.pdf

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2018-06-09

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏社区的朋友们

《 NEXT 技术快报》:计算机视觉篇(上)

图像生成是计算机视觉中非常重要的一类问题,也有着很长的研究历史。同时这一类问题也和动画制作有着紧密的关联。广义的说来,凡是生成新的图像内容的相关问题都可以归为图...

3740
来自专栏机器之心

四大深度学习框架+四类GPU+七种神经网络:交叉性能评测

选自add-for 作者:Pedro Gusmão 机器之心编译 参与:李泽南、黄小天 最近,Pedro Gusmão 等人对于英伟达的四种 GPU 在四种不同...

40816
来自专栏目标检测和深度学习

MIT 6.S094· 深度学习 | 学霸的课程笔记,我们都替你整理好了

雷锋字幕组获MIT课程团队授权翻译自动驾驶课程,视频链接:http://www.mooc.ai/course/483/info 我们为你整理了每一个Lectu...

1102
来自专栏专知

【干货】2017最火的五篇深度学习论文 总有一篇适合你

【导读】最近,MIT博士生学生GREGORY J STEIN在博客中总结了2017年他最喜欢的深度学习论文,并且列出了这一年对他研究思考影响最深的五篇论文,其中...

29411
来自专栏机器学习算法与理论

基于TP-GAN的侧脸人像恢复

中科院自动化所(CASIA),中科院大学和南昌大学的一项合作研究,提出了双路径 GAN(TP-GAN),通过单一侧面照片合成正面人脸图像,取得了当前较好的结果。...

3768
来自专栏机器之心

ICLR 2018 | 清华&斯坦福提出深度梯度压缩DGC,大幅降低分布式训练网络带宽需求

选自arXiv 作者:林宇鋆、韩松等 机器之心编译 参与:刘晓坤 来自清华大学和斯坦福大学的研究者们发现,分布式随机梯度下降训练中 99.9% 的梯度交换都是冗...

3248
来自专栏腾讯技术工程官方号的专栏

腾讯AI Lab解析2017 NIPS三大研究方向,启动教授及学生合作项目

第一部分我们介绍在NIPS上启动与推介的针对教授、学者与学生的共享AI合作项目。第二部分对NIPS探讨的递归神经网络、随机或一阶优化及生成模型等三大研究领域做...

27410
来自专栏AI科技评论

学界 | 机器学习十大算法都是何方神圣?看完你就懂了

AI科技评论按:机器学习与人工智能变得越来越热。大数据原本在工业界中就已经炙手可热,而基于大数据的机器学习则更加流行,因为其通过对数据的计算,可以实现数据预测、...

3465
来自专栏机器之心

学界 | 机器理解中的迁移学习,斯坦福联合微软提出SynNet网络

选自arXiv 机器之心编译 参与:李亚洲、Smith 近日,斯坦福大学、微软联合发表了一篇论文,提出了一种在机器理解(MC)中使用 2-阶段合成网络(SynN...

38415
来自专栏新智元

贝叶斯生成对抗网络(GAN):当下性能最好的端到端半监督/无监督学习

【新智元导读】康奈尔大学研究员结合贝叶斯和对抗生成网络,在6大公开基准数据集上实现了半监督学习的最佳性能,同时,这也是迈向终极无监督式学习的一大步。研究提出了一...

49817

扫码关注云+社区