学界 | 稳!DeepMind提出多任务强化学习新方法Distral

选自arXiv

机器之心编译

参与:蒋思源、黄小天

深度强化学习因为复杂的环境而很难进行有效的训练,通常我们会简化环境或使用共享神经网络参数的方法进行多任务学习,但采用这种方法的学习并不稳定。因此 DeepMind 近日发表了一篇论文,并提出了一种用于多任务的联合训练的新方法—Distral(提取&迁移学习)。

论文链接:https://arxiv.org/pdf/1707.04175.pdf

摘要:在复杂的富环境中,大多数深度强化学习算法的数据使用效率并不高,限制了其在诸多场景之中的应用。解决该问题的一个方向是通过共享神经网络参数实现多任务学习,借助关联任务之间的迁移提升数据使用效率。然而在实际中,这不容易被观察到,因为来自不同任务的梯度可以消极干预,使得学习不稳定,有时甚至效率更低。另一个问题是任务之间的不同奖励方案,这可以轻易导致一个任务主导共享模型的学习。我们提出了一种用于多任务的联合训练的新方法——Distral(提取&迁移学习)。我们没有共享不同工作站之间的参数,而是通过共享「提取的」策略捕捉任务之间的共同行为。每个工作站被训练以解决其自己的任务,同时被限制接近于共享策略,尽管共享策略是通过提取被训练从而成为所有任务策略的中心(centroid)。学习过程的两个方面都来自于优化一个联合目标函数。我们表明该方法支持复杂 3D 环境中的高效迁移,并优于多个相关方法。然而,该学习过程更鲁棒更稳定——这对深度强化学习尤其关键。

新框架 Distral 可用于多任务之间的同步强化学习。图 1 是一个包含 4 个任务的图示。该方法聚焦于共享策略的理念上(如图中心所示),它从具体任务的策略中提取(在 Bucila and Hinton et al. [5, 11] 的意义上)共同行为或表征。

图 1: Distral 框架

图 2: 不同算法和基线的描述。左侧是 Distral 算法中的两个,右侧是 3 个 A3C 基线。熵(entropy)在括号之内,因为它是可选择的,且只用于 KL+ent 2col 和 KL+ent 1col。

Distral 框架允许大量可能的算法例示,以目标、算法和架构结合的方式出现,我们将在下文述及,并总结在表 1 和图 2 中。

表 1: 实验中评估的 7 个不算法。每一列描述一个不同的架构,每列的标题指示任务策略的 logit。行定义 KL 与 熵正则化损失函数的相关量,第一行包括 A3C 基线(没有 KL 损失函数)。

图 3: 左图:两个空间网格世界中的学习曲线。DisTraL 智能体(蓝色)学习的更快,并向更好的策略收敛,从整体上证明了更稳定的学习。中图:任务的实例。绿色代表目标位置,为了每一任务统一被采样。在每一个 episode 开始之时,开始位置统一被采样。右图:习得的提取策略 π0 只在走廊之中,并受限于之前向左/向右的行动,没有先前的奖励。箭头的大小描述行动的概率。注意向上/向下行动的概率可以忽略。模型在走廊中学习保持行进的方向。

图 4:上图 A1、C1 和 D1 展示了任务具体型(分别为迷宫、导航和 laser-tag 任务)策略性能(所有任务的均值),其中这几幅图 x 轴代表每个任务训练环境步的总数。B1 图展示了由使用提取策略(distilled policies)所获得的均分值。对于每个算法,我们基于曲线下面积展示了最优超参数设定。A1、B1、C1 和 D1 中的粗线为四次运行的均值,而彩色的区域为每个任务的平均标准差。图 A2、B2、C2 和 D2 展示了每个算法 36 次运行的最终性能,并且从好到坏排序(9 个超参数设定,且运行了四次)。

结语

我们提出了 Distral,一种用于提取(distilling)和迁移多任务强化学习中一般行为的通用框架。在实验中,该最终算法不仅能更迅速地学习、产生更好的性能,同时还能更加稳健和鲁棒地设置超参数。我们发现 Distral 能显著地优于为多任务和迁移强化学习共享神经网络参数的标准方法。

该论文最重要的两个发现:即我们发现使用 KL 散度正则化任务模型的输出为已提取模型(distilled model)时,提取(distillation)可自然地作为优化过程的一半。另一半则相应于使用已提取模型作为任务模型训练的正则器(regularizer)。另一个发现是深度神经网络中的参数通常不具备语义意义,所以我们并不在参数空间内正则化(regularizing)网络,因此我们有必要考虑在更加具备语义信息的空间中正则化神经网络,如在策略空间中正则化神经网络。

本文为机器之心编译,转载请联系本公众号获得授权。

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2017-07-15

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

入门 | 半监督学习在图像分类上的基本工作方式

45610
来自专栏机器之心

被Geoffrey Hinton抛弃,反向传播为何饱受质疑?(附BP推导)

机器之心整理 机器之心编辑部 现在的深度学习发展似乎已经陷入了大型化、深度化的怪圈,我们设计的模型容易被对抗样本欺骗,同时又需要大量的训练数据——在无监督学习...

41612
来自专栏新智元

【PointCNN全面刷新测试记录】山东大学提出通用点云卷积框架

来源:arXiv 编辑:克雷格 【新智元导读】山东大学李扬彦、卜瑞、孙铭超、陈宝权研究团队近日研究提出的PointCNN是简单通用的点云特征学习架构,基于这一方...

4537
来自专栏机器之心

FAIR何恺明等人提出组归一化:替代批归一化,不受批量大小限制

选自arXiv 作者:吴育昕、何恺明 机器之心编译 自 Facebook 在 2017 年 6 月发布 1 小时训练 ImageNet 论文以来,很多研究者都在...

3696
来自专栏数据派THU

这份深度学习课程笔记获吴恩达点赞

来源:机器之心 通过本文用优美的信息图为大家解读深度学习课程的知识与亮点~ 吴恩达在推特上展示了一份由 TessFerrandez 完成的深度学习专项课程信息...

5367
来自专栏量化投资与机器学习

【sklearn机器学习】——应用机器学习的建议

? 本文以Bremen大学机器学习课程的教程为基础的。总结了使用机器学习解决新问题的一些建议。包括: 可视化数据的方法 选择一个适合当前问题的机器学习方法 鉴...

2068
来自专栏iOSDevLog

人工智能-人工神经网络

3094
来自专栏华章科技

这份深度学习课程笔记获吴恩达点赞

吴恩达在推特上展示了一份由 TessFerrandez 完成的深度学习专项课程信息图,这套信息图优美地记录了深度学习课程的知识与亮点。因此它不仅仅适合初学者了解...

913
来自专栏大数据挖掘DT机器学习

逻辑回归、决策树和支持向量机

作者:赵屹华,计算广告工程师@搜狗, http://www.csdn.net/article/2015-11-26/2826332 这篇文章,我们将讨论如何在逻...

2924
来自专栏机器之心

学界 | 双重注意力网络:中科院自动化所提出新的自然场景图像分割框架(附源码)

作者:Jun Fu、Jing Liu、Haijie Tian、Zhiwei Fang、Hanqing Lu

1932

扫码关注云+社区

领取腾讯云代金券