DeepMind用强化对抗学习生成编写图像的程序

来源:DeepMind

编译:Bing

编者按:近几年,深度生成网络取得了令人印象深刻的成果,尽管如此,这些模型通常会在数据集的细节上浪费很多资源,这也许是由于解码器中弱感应偏差造成的。于是这时,图形引擎就派上了用场,因为它们能将低水平的细节变得抽象,然后用高水平的程序表示图像。目前将深度学习和渲染器结合的方法受限于似然性或距离函数,需要大量的监督,或难于将其推理算法扩展到更丰富的数据集中。于是,DeepMind的研究人员推出了SPIRAL,该智能体经过训练后能生成一个程序,它能通过图像引擎解释并采样图像。以下是论智对原文的编译。

人类的眼睛所看到的,并不仅仅是角膜反射的图像。例如当我们看到一幢建筑,沉迷于它精妙的设计时,我们会感叹工匠的高超技艺。这种通过思考创造它们的工具来欣赏物体的能力,使我们对世界有了更加丰富的理解,这也是人类智慧的一个重要方面。

我们希望系统可以创造出相似的对世界丰富的知觉。例如,在观察一幅油画作品时,我们想让它们了解绘画的笔触,而不仅仅是屏幕上单纯的像素。

在这项研究中,我们给智能体配备了与人类绘画相同的工具,可以让它们明白数位、字符和人像是如何绘制出来的。重要的是,它们完成的这一切都靠自我学习,无需人类标记过的数据集。这与最近一个需要人类数据集的研究不同,这一过程可能非常耗时。

我们设计了一款深度强化学习智能体SPIRAL,它可以和计算机的绘画程序交互,可以在电子画布上绘画,也可以改变笔刷的大小、按压强度和颜色。未经训练的智能体最初会漫无目的地在画布上涂鸦,于是我们必须创造出一种奖励智能体的方法,促使它画出有意义的作品。

为了这一目的,我们训练了另一个神经网络,称为判别器(discriminator),它的作用是判断该作品是否是智能体生成的,或者仅仅是从真实照片中采样的一张图片。绘画智能体是通过欺骗判别器认为绘画是真实与否的程度来获得奖励的。换句话说,智能体的奖励信号本身就是学习来的。虽然这很像生成对抗网络(GAN),但是二者的不同之处在于GAN中的生成器通常是直接输出像素的神经网络,而我们的智能体通过编写图形程序生成图像,从而在绘图环境中进行交互。

在实验的第一个装置中,智能体用于训练生成类似MNIST数字一样的图像:最后发现这些数字看上去很像MNIST,但画的方式不一样。为了生成能够欺骗过判别器的图像,智能体学着控制笔刷,然后让其适应不同数字的风格,这种技术成为视觉程序合成。

我们同样训练它重现具体的图像。在这里,判别器的目的是判断重新生成的图像是否是目标图像的复制品,还是真的由智能体生成的。判别器判断得越困难,智能体得到的奖励就越多。

重要的是,该框架也是可解释的,因为它能生成一串动作用来控制模拟笔刷。这意味着模型可以将其所学应用到模拟绘画软件上,在其他相似的环境中重新创造作品,例如在机械臂上。这一过程可以通过一下视频了解:

该框架也可以扩展到真实数据集上。当我们训练智能体画出名人的脸时,它能够捕捉到脸部主要的特征,比如脸型、肤色和发型,有点街头艺人用仅有的画笔为人画肖像的感觉:

从原始感知中复原结构表示是人类能够轻易获得并经常使用的能力。在这项工作中,我们证明可以通过给智能体配备与人类相同的感知工具生成相似的表示。在这一过程中,它们学会制作可视化程序,这些程序能简洁地表达产生这种观察的因果关系。

尽管我们的工作仅是迈向灵活程序合成的一小步,但我们希望未来能有更多的技术,让人工智能体具备人类的感知、概括和交流能力。

原文地址:deepmind.com/blog/learning-to-generate-images/

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180328G1QLRR00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券