【AI学会“以牙还牙”】OpenAI发布多智能体深度强化学习新算法LOLA

【新智元导读】OpenAI和牛津大学等研究人员合作,提出了一种新的算法LOLA,让深度强化学习智能体在更新自己策略的同时,考虑到他人的学习过程,甚至实现双赢。每个LOLA智能体都调整自己的策略,以便用有利的方式塑造其他智能体的学习过程。初步试验结果表明,两个LOLA 智能体相遇后会出现“以牙还牙/投桃报李”(tit-for-tat)策略,最终在无限重复囚徒困境中出现合作行为。研究人员表示,即使是目前最先进的深度强化学习算法,也没能做到这一点。LOLA向构建能够考虑其他智能体的智能体迈出了一步。

OpenAI今天更新博客,发布了一种新的算法,能够让智能体在学习的过程中考虑到其他智能体,并且发现有利于自我同时也有利于协作的策略。这种算法被称为“考虑对手学习情况的学习”(Learning with Opponent-Learning Awareness,LOLA),是朝向构建能够对其他智能体建模的智能体迈出的一小步。

LOLA:首次在深度强化智能体中体现人类合作的“心智理论”

具体说,LOLA智能体“Alice”会对另一个智能体Bob的参数更新进行建模,建模的过程依赖于Alice自己的策略以及Bob参数更新对Alice预期回报的影响。然后,Alice会更新自己的策略,让其他智能体(比如Bob)的学习步骤更有利于自己的目标。

LOLA智能体可以在游戏(比如迭代的囚徒困境或捡硬币游戏)中,发现有效的互惠策略。相比之下,最先进的深度强化学习方法,比如 Independent PPO,无法在游戏中学习这样的策略。这些智能体一般都会学习采取自私的行为,忽视其他智能体的目标。LOLA解决了这个问题,虽然也是让智能体采取有利于自身利益的行动,但这个行动也包含了其他智能体的目标在里面。有了LOLA,就不需要手工制定促进合作的规则,也不需要设置环境条件鼓励合作,智能体能自动探求倾向于合作的行为。

研究人员表示,LOLA的灵感来自于人类是如何合作的:人类非常擅长于推理自己的行动将如何影响其他人未来的行动,并且经常发明与其他人合作的方式来实现“双赢”。人类善于合作的原因之一,是他们对其他人有一种“心智理论”(theory of mind),这让他们制定出为合作方带来好处的策略。

到目前为止,这种“心智理论”还没有在深度多代理强化学习中得到体现。对于当前最先进的深度RL智能体来说,另一个智能体只是环境中第一部分,跟一棵树没有固有的区别。

数学证明:纳入“项”进行对手学习步骤的参数建模

LOLA性能的关键是项的纳入(inclusion of term):

在这里,左边描述了Alice的回报如何取决于Bob策略的变化。右边描述了Bob的学习步骤如何依赖Alice的策略。两者相乘,基本上就描述了Alice如何通过改变Bob的学习步骤让Alice自己奖励增加的情况。

研究人员表示,他们在训练智能体时,智能体会尝试在预期对手的的学习步骤之后,再对自己的回报进行优化。通过预期对手的学习步骤,智能体可以主动塑造(shape)对手的参数更新,让对手更新的结果对自己有利。

研究人员表示,上述公式假设能够获得两个价值函数的真实梯度和粗糙度(hessian),还可以使用样本来估计所有相关的项(term)。特别地,可以通过应用策略梯度定理来估计二阶项,这使得LOLA适合于任何深度强化学习环境

数学推导示例,详情请参见论文

我们可以在LOLA里增加一个步骤——对手建模,基于其他智能体的行动来预测其参数。研究人员表示,他们将来还会就此进行拓展,比如从观察到的学习中推断架构和奖励。

实验结果

LOLA可以在两种情况下工作,一是可以获得其他智能体的策略(LOLA),二是只能通过跟踪估计其他智能体的状态(LOLA-OM)。 在捡硬币中,两种方法都可以拿出更多的硬币(图(a)),并且比其他方法的得分要高得多(图(b))。

LOLA训练出了更成功的智能体。在捡硬币游戏中,两名智能体(红和蓝)相互竞争捡硬币。硬币也分为红色和蓝色,当智能体捡起一个与自己颜色相符的硬币时就得1分,但捡起颜色不符的硬币会被扣2分。因此,如果两个智能体都很贪心地捡硬币,不分颜色,那么每个人平均都得0分。LOLA智能体能够学会主要拿起与自己颜色相符的硬币,从而得到更高的分数。

研究人员还探讨了目前LOLA的缺点及改进方向。当使用大的批次大小和full roll-outs减少差异时,LOLA的效果最好。但这也意味着这种方法对内存和计算力的需求都很高。此外,在对手建模的情况下,LOLA不是很稳定,研究人员希望未来能够改进并解决这个问题。

论文:考虑对手学习过程的学习

摘要

在机器学习中,多智能体(multi-agent)设置变得UI而来越重要。除了最近出现的很多深度多智能体强化学习(deep multi-agent reinforcement learning)的工作外,分层强化学习(hierarchical reinforcement learning),生成对抗网络和分散优化( decentralized optimization)都可以看作是这种设置。

但是,在这些设置中,多个 learning agent 的存在使得训练问题不固定,而且经常导致训练不稳定或得到不符合期望的最终结果。我们提出 Learning with Opponent-Learning Awareness(LOLA),这是推断其他智能体的预期学习(anticipated learning )的一种方法。LOLA 学习规则包括一个额外的项(term),用于估计该agent的策略对于其他agent的预期参数更新的影响。

我们的研究显示,可以使用似然比策略梯度更新的扩展来有效地计算LOLA更新规则,使得该方法适合于无模型强化学习(model-free reinforcement learning)。因此,该方法可以扩展到大的参数和输入空间以及非线性函数近似。初步结果表明,两个LOLA agent 的相遇导致“以牙还牙”( tit-for-tat)的出现,最终在无限重复囚徒困境中出现合作。

在这个领域,与原始的学习者相比,LOLA的收益也更高,而且对于基于更高阶梯度的方法的开发,LOLA也是稳健的。对于无限重复猜硬币博弈,只有LOLA智能体收敛到纳什均衡。我们还将LOLA应用于使用深度递归策略的的嵌入式社会困境的 grid world 任务。同样,通过考虑其他agents的学习,LOLA agents 学会了出于私利的合作。

论文地址:https://arxiv.org/abs/1709.04326

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2017-09-15

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏量子位

Kaggle冠军冲顶经验分享:怎样11步搞定机器学习竞赛?

最近,一名来自湖南长沙的小哥仅用15个月时间,就冲上了Kaggle用户排行榜的首位,他的ID是Bestfitting。

1663
来自专栏AI科技评论

业界 | Facebook全面转为神经网络人工智能翻译

AI 科技评论按:语言翻译是一股能够让人们组建群体和使世界更加紧密的力量。 它可以帮助人们与在海外居住的家庭成员联系起来,或者可以更好地了解讲不同语言的人们的观...

3289
来自专栏新智元

【人脑理解又突破】神经网络绘制大脑神经回路精度达到人类水平

【新智元导读】华盛顿州立大学姬水旺等人的研究团队首次提出一种计算机算法,在绘制大脑神经网络方面的准确度达到几乎与人类同等的水平,这是有助于加速用于理解大脑回路的...

3503
来自专栏数据科学与人工智能

【机器学习】机器学习和数据挖掘的推荐书单

《机器学习实战》:本书第一部分主要介绍机器学习基础,以及如何利用算法进行分类,并逐步介绍了多种经典的监督学习算法,如k近邻算法、朴素贝叶斯算法、Logistic...

2668
来自专栏数据科学与人工智能

【经验】普通程序员如何转做人工智能

小编邀请您,先思考: 1 您擅长那种编程语言? 2 您了解深度学习,机器学习和人工智能吗? 我曾经也只是一个只懂 ACM 竞赛相关算法的普通程序员,误打误撞接触...

3928
来自专栏木可大大

大数据是什么(续)

从亚马逊到Facebook,再到谷歌和微软,全球最顶尖、最有影响力的技术公司都将目光转向了人工智能(AI)。本文将介绍AI、机器学习以及深度学习,其中着重介绍深...

1712
来自专栏AI科技评论

UC Berkeley 讲座教授王强:Deep Learning 及 AlphaGo Zero(上)

AI 科技评论按:北京时间 10 月 19 日凌晨,DeepMind 在 Nature 上发布论文《Mastering the game of Go witho...

3847
来自专栏用户2442861的专栏

机器学习系列(7)_机器学习路线图(附资料)

http://blog.csdn.net/han_xiaoyang/article/details/50759472

2001
来自专栏人工智能头条

2017年AI技术盘点:关键进展与趋势

1383
来自专栏腾讯技术工程官方号的专栏

从研究到应用:腾讯AI Lab的自然语言理解和生成

腾讯AI Lab高级研究员李菁博士介绍了如何理解和生成自然语言,并介绍了实验室的相关研究和应用成果。

6.6K11

扫码关注云+社区

领取腾讯云代金券