深度学习:AI对抗学习比深度、增强学习能好多少

人工智能中,或许对抗学习是继深度学习、增强学习之后下一个热点,但是,它只对中等难度的任务具有实用性,依然不能解开“迁移学习”(实际中不可行)所追求的那种像人一样跨越多个领域,具备所谓的“通用学习能力”的这道大难题,也仅仅只是比以往深度学习有关的很多算法做得更好一些而已。

在包括深度学习、增强学习、迁移学习(如今基本无法实现)和对抗学习等机器学习算法中,“生成式对抗网络”的对抗学习法很重要,这一开创性的全新学习思路,很可能会成为深度学习的下一个热点。这里有必要深入讨论一下。

自从伊恩·古德费洛(Ian Goodfellow)在2014年发表了论文《生成式对抗网络》(Generative Adversarial Nets,缩写GANs)以来,对抗学习便广受关注,加之全球学界大牛,Facebook人工智能研究中心FAIR负责人、深度学习三驾马车之一的扬·勒丘恩(Yann LeCun )在知乎网上答疑时曾说,“他最激动的深度学习进展是生成式对抗网络”,使得对抗学习成为近年来在机器学习领域的新宠。

2017年6月18日,扬·勒丘恩在Facebook上转发了一条动态,介绍了他作为合作者之一的一项研究成果:帮助对抗学习使用离散数据的“对抗性正则化的自动编码器”,该算法被评价有一种厉害的用法,可以在对抗性的设定下生成离散性的结构(比如文本)。由于对抗的过程是发生在(连续)编码上的,而不是输出上,这就可以缓解对抗性鉴别器直接用在离散输出上时可能会遇到的问题。看来,对抗学习真的受到学界的高度重视,其意义非同凡响。

对抗学习这一算法的出现,似乎打乱了之前机器学习的范畴及其划分。如今,机器学习也可以划分成如下两类:生成式模型(generative model)和判别式模型(discriminative model)。其中,近两年来流行的生成式模型主要分有三种方法,分别是生成对抗网络、变分自编码器和自回归模型。

对抗学习可以简单的理解为,培养一个对手(对抗网络),给自己(生成网络)的学习随时找茬。这样,用不同的目标分别训练对抗网络与生成网络进行竞争,一段时间后,生成方就会变得非常厉害以至于即使给定足够的线索和时间,其对抗网络也无法分辨它给的答案是真实的还是合成的。与增强学习(阿尔法狗成功的重要学习法)做个比较,或许能够管窥对抗学习的厉害之处了。

谷歌的阿尔法狗2016年与韩国围棋第一高手对弈时,还输了一局,但是,一年后与世界第一高手柯洁对战时,其怪异的棋步和高超的战法,直接将柯洁虐哭。当时做解读的嘉宾是棋圣聂卫平,他甚至评价阿尔法狗可以评定为20段高手(围棋界的最高段位是9段)。为何阿尔法狗在一年之后,对弈水准算术甚至几何级别的提升,原因就是它运用了增强学习,即人们常说的“左右互搏”术。这一技术让其可以在很短的时间内,没日没夜地与世界顶级棋手过往数以亿计的棋谱对弈,或者是自己和自己对战,水平剧增毫无悬念。

所以,增强算法极大地促进了深度学习的发展。不过,这种算法是通过平均最大化的最终奖励来达到训练目的,其结局必定会由“奖励函数”给出。但是,除非你是在玩“全透明信息”的棋类游戏,否则很难写出一个奖励函数来精确衡量来自其他领域周边环境的反馈。

在现实世界中,可以像棋类游戏一样被参数化的例子很少。也就是说增强学习的算法在实际运用上有着很大的局限性。举个驾驶游戏的例子:你是可以找到诸如撞坏车辆、使乘客受伤和不合理地加速等的某个负向奖励的,但却很难找到一个可以规范驾驶行为的正向奖励,比如因何转弯,转多少,时速如何决定;为何要时左时右,时慢时快,怎样决定左多少、右多少,快多少、慢多少等等。然而,对抗学习却不同,它既不是以平均最大化来设定目标,也不是以一个正向、负向的奖励来训练机器。它有如一位学生学习写字一样,在模仿老师或字帖字体结构与笔画的过程中内化了这些技能。不同的是,这位学生身旁还一直站着 “对抗网络”这位严肃的、不断成长的高手,有如专家,他为确保能随时随地为你纠偏,正唠唠叨叨,不停地肉里挑刺呢!你想你的学习提高到底有多快?这也是这一学习算法为何备受大家、牛人推崇的根源之所在。

正因为如此,有人提出:增强学习这种一度被认为最接近人类学习的算法,根本就不像人类的学习,只有对抗学习这种算法才更接近人类的学习方式。到底是不是呢?那我们就来简单分析一下:

对抗学习有生成方与识别方两个网络,都是分别训练的。试想,你一会儿训练生成方,一会儿训练识别方,如此反反复复,实际上并不能保证其结果会收敛于一个稳定的解,更别提一个最优解了。这个矛盾就是:生成网络与识别网络,到底哪个网络能够真正理解所面临实际问题?举个例子:

如果你模仿某人去完成某个任务(生成网络),如果顶级高手(对抗网络)都无法分辨这一事项是你完成抑或是模仿完成的,这说明你已经完全掌握了该任务的所有技能。但是,对于巨幅精细而难度很高的绘画作品、撰写论文这些复杂事项,可能就不再那么适用了。看来,对抗学习也有它的局限性,也仅仅在中等难度的任务具有广泛地实用性而已。

当然,不管怎样,对抗学习依然不能解开“迁移学习”(实际中不可行)所追求的那种像人一样跨越多个领域,具备所谓的“通用学习能力”的这道难题,似乎也仅仅只是比以往深度学习有关的很多算法做得更好一些而已。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181027A00Z2V00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券