学界 | DeepMind 将博弈论融入多智能体研究,让纳什均衡变得更简单

AI 科技评论按:随着 AI 系统在现实生活中变得越来越重要,我们自然该探索不同系统间的交互方式了,这些多智能体间到底用了什么独特的方式呢?

在 DeepMind 的最新论文(发表在 Scientific Reports , Nature 出版社旗下杂志)中,研究人员用了博弈论来阐明这一问题。具体来说,他们研究了两套智能系统在非对称博弈游戏(asymmetric game)中的反应和表现,这些游戏包括 Leduc 扑克和一些图版游戏(如 Scotland Yard)。

在现实生活中,我们会遇到许多类似非对称博弈游戏的场景,自动拍卖(automated auction)就是其中之一。在这一过程中,会混入许多 AI 扮演的买家或卖家,而真正参与其中的人类买家和卖家也都有自己的小算盘。最终的测试结果让研究人员对这种奇怪的情况有了深刻了解,他们还拿出了一个相当简单的分析方法。

虽然 DeepMind 的主要目标是如何将博弈论应用到多个 AI 系统的交互中去,但研究人员得出的结果也可以用在经济、生物进化和实证博弈论等学科中。

众所周知,博弈论是数学界的重量级理论,研究人员通常会用它来研究竞争态势下决策者们的战略,该理论几乎可通用于人类、动物和计算机世界。不过,在 AI 研究中,它一般会被用在「多智能体」环境下的研究中。举例来说,多款家政机器人合作清洁房间就属于其中的应用场景之一。

一般来说,多智能体系统的演化动力学都靠简单的对称博弈论来分析,比如经典的囚徒困境理论。虽然此类游戏能帮我们对多智能体系统的工作方式有一定了解,并告诉我们如何实现你好我好大家好的理想结果(即所谓的纳什均衡),但却无法模拟所有情况。

DeepMind 的新技术让研究人员能快速容易地在更复杂的不对称博弈游戏中找到取得纳什均衡的策略,这类游戏中玩家通常有不同的战略、目标和奖励。如果你想了解 DeepMind 是如何用新技术「破解」这类游戏的,可以试着去了解「性别博弈」,它也是博弈论研究的经典案例之一。

在「性别博弈」中,两个玩家要协调晚上到底去哪玩,是去看歌剧还是看电影?令人遗憾的是,他们中有一个人倾向于看歌剧,另一个人则偏爱电影。这样的情境下,不对称的情况就出现了,因为即使两个人达成一致,其中也有一个人会不高兴。因此,要想继续维持两人的友谊(划掉),或者说均衡,玩家就该共进退(毕竟产生分歧换来的只有零回报)。

这个游戏有三种「势均力敌」的均衡情况:

  1. 两个玩家都决定去看歌剧
  2. 两人都选择去看电影
  3. 则是混合选项,即每位玩家在夜晚外出的五分之三时间内享用自己的心头好

第三种选项是一种「不稳定」(unstable)选项,用 DeepMind 的方法很轻松就能进行简化或者分解,非对称博弈游戏也就转换成为对称的对应部分。这一方法将两个玩家的奖励表分别当作独立的双玩家对称博弈,这样也能轻松地找到原本不对称博弈游戏的纳什均衡点。

在下图中,b 和 c 图的纳什均衡点很容易找到,借助它们我们就能在非对称博弈中找到 a 图中的最佳策略。当然,我们也可以反过来,通过非对称博弈来找寻对应体中的平衡点。

红点代表纳什均衡。对于非对称博弈游戏(a),可以从(b)与(c)代表的两个对应图中找到纳什均衡。如图所示,x轴和y轴分别代表玩家1和2选择看歌剧的可能性。

这种方法还可运用于其他游戏,比如 Leduc 扑克,在论文中研究人员还对它进行了详细解读。无论哪种情况下,这种方法都足够简单,它能帮玩家快速和直接的分析非对称博弈游戏,进而帮助我们理解不同的动态系统,其中就包括多主题环境下的系统交互。

论文地址: https://www.nature.com/articles/s41598-018-19194-4

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2018-01-19

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏西安软件开发

西安小程序开发行业坑多套路深,追逐风口更需擦亮眼睛

“小程序开发这滩水真是太深了!”不少创业者小程序的威力之后都想要从中赚一笔,西安杜女士就是其中一员。“小程序太火了,我想着就算从中赚不到钱,最起码也能起到引流作...

1675
来自专栏安恒信息

指纹识别也不安全:黑客称可通过照片复制指纹

欧洲最大的黑客联盟“Chaos计算机俱乐部”表示,该组织已经可以通过几张手指照片复制出人们的指纹。 在德国汉堡举行的第31届Chaos计算机俱乐部大会上,网名为...

2898
来自专栏哲学驱动设计

架构师考试回顾

    今天成绩下来了,本来以为要等到1月17号才会发布,一直没查,还是朋友帮我查了,我才知道已经考试通过了。之前简单地在《2010目标》中描述了一下去年考试的...

25010
来自专栏韩东吉的Unity杂货铺

从象棋到太极,领悟学习之道(一)

前言里,大致的介绍了一下维茨金的经历,从象棋到太极,在任何人看起来都是两个完全不同的领域,那他又是如何做到在不同的领域里都可以取得骄人的成绩呢?维茨金自己总结到...

1063
来自专栏双十二技术哥

GMTC移动开发者大会纪实(一)谁的寒冬又是谁的春天

6月9号、10号参加了GMTC全球移动开发者大会,看到了一些优秀的团队在做的事情及以后的方向,得到了一些启示也有一些自己的想法,记录下来,分享给大家!

724
来自专栏Java架构师进阶

一个一直“朝九晚五”的程序员

要成为一个伟大的工程师,你不需要写博客,也不需要致力开源,更没必要进行技术演讲或者做任何其他事情。

771
来自专栏速成应用小程序开发平台

餐饮下单小程序有哪些功能和特点 点餐小程序优势有哪些?

在互联网时代,所有行业的竞争无论是时间维度还是空间维度都是不断扩大的,餐饮业的运营肯定也是绕不开的。而由于微信小程序的出现,更是给餐饮业开放了另一个空间,特别是...

2212
来自专栏云计算D1net

Dropbox与Box的云端存储之路

在IT行业差异性被夸大的今天,用户级产品和企业级产品越来越像,未来是用户级产品步步为营涌入企业市场,还是企业级产品用其合理的商业模式笑到最后?这个问题不妨看看本...

4756
来自专栏ATYUN订阅号

五角大楼计划扩展其有争议的Maven AI项目

五角大楼宣布计划建立一个新的联合人工智能中心(JAIC),该中心可能以Maven项目为模型,该项目是美国军方和私营公司之间有争议的合作项目,训练算法来分析无人机...

981
来自专栏云加头条

IaaS,PaaS,SaaS 的区别

越来越多的软件,开始采用云服务。云服务只是一个统称,可以分成三大类。本文主要介绍了IaaS,PaaS,SaaS 的区别。

8K4

扫码关注云+社区

领取腾讯云代金券