学界 | 分离特征抽取与决策制定,如何用6-18个神经元玩转Atari游戏

选自arXiv

机器之心编译

参与:路

本论文提出了一种在复杂的强化学习设置中同时又独立地学习策略和表征的新方法,通过基于向量量化和稀疏编码的两种新方法来实现。这使得仅包含 6 到 18 个神经元的网络也可以玩转 Atari 游戏。

在深度强化学习中,大型网络在直接的策略逼近过程中,将会学习如何将复杂的高维输入(通常可见)映射到动作。当一个拥有数百万参数的巨型网络学习较简单任务时(如玩 Qbert 游戏),学到的内容中只有一小部分是实际策略。一个常见的理解是网络内部通过前面层级学习从图像中提取有用信息(特征),这些底层网络将像素映射为中间表征,而最后(几)层将表征映射至动作。因此这些策略与中间表征同时学习得到,使得独立地研究策略几乎不可能。

将表征学习和策略学习分离方能独立地研究二者,这潜在意义上能够使我们对现存的任务及其复杂度有更清晰的理解。本论文就朝着这个目标前进,作者通过实现一个独立的压缩器(即特征提取器)将特征提取和决策分离开来,这个压缩器在策略与环境互动中所获取的观测结果上进行在线训练。将网络从构建中间表征中解放出来使得网络可以专注于策略逼近,从而使更小的网络也能具备竞争力,并潜在地扩展深度强化学习在更复杂问题上的应用。

该论文的主要贡献是提出一种在复杂的强化学习设置中同时又独立地学习策略特征的新方法。这通过基于向量量化(Vector Quantization,VQ)和稀疏编码(Sparse Coding,SC)的两种新方法来实现,研究者将这两种方法分别称为「Increasing Dictionary VQ」和「Direct Residuals SC」。随着训练继续、网络学习到更复杂的策略,网络与环境的复杂互动带来更多新的观测结果;特征向量长度的增长反映了这一点,它们表示新发现的特征。类似地,策略通过可解决维度增加问题的指数自然进化策略(Exponential Natural Evolution Strategy)进行训练。实验结果显示该方法可高效学习两种组件,从而仅使用 6 到 18 个神经元(神经元数量比之前的实现少了两个数量级)组成的神经网络就可以在多个 ALE 游戏中获得当前最优的性能,为专用于策略逼近的深度网络研究奠定了基础。

图 1:系统图示。在每个生成阶段,优化器(1)为神经网络控制器(3)生成权重集合(2)。每个权重都是偶发地(episodically)通过环境进行评估(4)。在每一步,环境将观测结果(5)发送到外部压缩器(6),压缩器生成紧凑编码(7)作为网络输入。压缩器为训练集(9)选择观测结果(8)。在该 episode 结束时,环境向优化器返回适应度分数(累计奖励,10)进行训练(神经进化,11)。压缩器训练(12)发生在生成阶段。

3 方法

该系统包括四个主要部分:1)Environment(环境):Atari 游戏,采取动作、提供观测结果;2)Compressor(压缩器):从观测结果中提取低维代码,同时系统其他部分执行在线训练;3)Controller(控制器):策略逼近器,即神经网络;4)Optimizer(优化器):学习算法,随着时间改进网络的性能,在本研究案例中优化器采用的是进化策略。

图 2:训练中心点。在 Qbert 游戏运行期间,使用 IDVQ 训练多个中心点。注意第一个中心点如何捕捉游戏的初始状态(背景),其他中心点将特征构建为后续残差:发光立方体、avatar 和敌人。

5 结果

研究者在 10 个 Atari 游戏上展示了对比结果,这十个游戏选自 ALE 模拟器上的数百个游戏。选择结果依据以下筛选步骤:1)OpenAI Gym 上可获取的游戏;2)与 [210, 160] 具备同样观测分辨率的游戏;3)不包含 3d 视角的游戏。

表 1:本研究提出方法在 Atari 游戏样本上与 HyperNeat [HLMS14] 和 OpenAI ES [SHC+17] 的对比结果。所有方法都是从头开始在原始像素输入上训练的。HyperNeat 列的结果使用的网络具备一个包含 336 个神经元的隐藏层。OpenAI ES 列中的结果使用两个包含 64 个神经元的隐藏层。IDVQ+XNES 列的结果未使用隐藏层。列 # neur 表示单个(输出)层中使用的神经元数量。粗体数字表示设置条件下最好的分数,斜体数字表示中间分数。

论文:Playing Atari with Six Neurons

论文地址:https://arxiv.org/abs/1806.01363

摘要:Atari 游戏上的深度强化学习直接将像素映射至动作;本质上,深度神经网络同时负责提取有用信息和基于此进行决策。为了设计专用于决策的深度网络,我们提出了一种新方法,独立但同时学习策略和紧凑状态表征,以得到强化学习中的策略逼近。状态表征通过基于向量量化和稀疏编码的新算法生成,状态表征与网络一道接受在线训练,且能够随着时间不断扩大表征词典规模。我们还介绍了允许神经网络能和进化策略处理维度变化的新技术。这使得仅包含 6 到 18 个神经元的网络可以学习玩 Atari 游戏,性能可以达到甚至偶尔超过在大两个数量级的深度网络上使用进化策略的当前最优技术。

本文为机器之心编译,转载请联系本公众号获得授权。

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2018-06-18

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

深度 | DeepMind提出神经元删除法:通过理解每个神经元来理解深度学习

选自DeepMind 机器之心编译 近日,DeepMind 发表博客介绍其对神经网络可解释性的最新研究成果。受神经科学启发,他们通过删除神经元来探索其对网络性能...

3255
来自专栏深度学习

深度学习入门建议

入门路线  1、首先在自己电脑上安装一个开源的框架,像Tensorflow、caffe这样的,先玩一下这个框架,把框架用起来  2、然后跑一些基础的网络,由浅入...

4289
来自专栏人工智能

关于提高机器学习性能的妙招

这里有可以让你做出更好预测的32个建议、诀窍与技巧。

2267
来自专栏数据派THU

用Python进行机器学习(附代码、学习资源)

本文从非线性数据进行建模,带你用简便并且稳健的方法来快速实现使用Python进行机器学习。

2586
来自专栏新智元

谷歌推出“流体标注”AI辅助工具,图像标注速度提升3倍!(附论文)

基于深度学习的现代计算机视觉模型(比如由TensorFlow对象检测API实现的模型)的性能取决于是否可以使用规模越来越大的标记训练数据集(如公开的图像)进行训...

1093
来自专栏小小挖掘机

推荐系统遇上深度学习(十一)--神经协同过滤NCF原理及实战

好久没更新该系列了,最近看到了一篇关于神经协同过滤的论文,感觉还不错,跟大家分享下。

4614
来自专栏新智元

DeepMind 最新研究:通过删除神经元理解深度学习

【新智元导读】深度神经网络由许多个体神经元组成,具有很高的复杂性。这种复杂性使其难懂,被认为是看不透的黑匣子。DeepMind最新发表针对对单一方向泛化的重要性...

50818
来自专栏机器之心

学界 | 英特尔提出新型压缩技术DeepThin,适合移动端设备深度神经网络

选自arXiv 作者:Matthew Sotoudeh等 机器之心编译 参与:路雪 近日,英特尔的研究者提出新型深度神经网络压缩技术 DeepThin,适合移动...

3125
来自专栏目标检测和深度学习

DeepMind 最新研究:通过删除神经元理解深度学习!

理解深度神经网络的运作机制对于帮助我们解释它们的决定,以及构建更强大的系统起到了至关重要的作用。例如,试想在不了解个体齿轮如何啮合的情况下去构建时钟会有多么的困...

3457
来自专栏ATYUN订阅号

【学术】使用机器学习来进行自动化文本分类

数字化已经改变了我们处理和分析信息的方式。信息的在线可用性呈指数增长。从网页到电子邮件、科学期刊、电子书、学习内容、新闻和社交媒体都充满了文本数据。其理念是快速...

3698

扫码关注云+社区