前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >解密!德扑界的AlphaGo:击败顶级德扑玩家的AI赌神Libratus

解密!德扑界的AlphaGo:击败顶级德扑玩家的AI赌神Libratus

作者头像
企鹅号小编
发布2018-02-11 13:00:31
8790
发布2018-02-11 13:00:31
举报
文章被收录于专栏:企鹅号快讯企鹅号快讯

“AlphaGo退休了,我们还有赌神Libratus。”

今年上半年,AlphaGo多次升级连克人类高手,甚至以3:0一举击败如今世界排名第一的柯洁。而在德州扑克中,人工智能也出现了——Libratus。2017年1月30日,来自CMU的人工智能Libratus战胜了人类顶级德州扑克玩家。然而比赛时,Libratus的创造者并不愿意大肆宣传其运作方式,而这大半年里关于Libratus的信息也鲜有曝光。

直到这个月——在距离NIPS2017开幕还有半个月左右,Libratus的创造者Tuomas Sandholm的个人主页已经显示,他和其博士生的论文《Safe and Nested Subgame Solving for Imperfect-Information Games》获得了NIPS-17最佳论文奖。紧接着15号《Science》杂志发表该预印版本论文,全面解读了Libratus的技术细节。

德州扑克是什么

德州扑克,全称Texas Hold’em poker,德克萨斯扑克。它是一种玩家对玩家的公共牌类游戏。一张台面至少2人,最多22人,一般是由2-10人参加。

德州扑克游戏使用52张扑克牌(一副牌去掉大小王),每个玩家发2张底牌(牌面朝下),再陆续发出5张牌面朝上的公共牌,前三张一起发出来,第四和第五张单独发出来。每个玩家从自己的两张底牌以及五张公共牌(共七张牌)中选择牌型最大的五张与其他的玩家进行比拼,牌型大者获胜。

在发放底牌和公共牌轮次,玩家可以选择下注、加注等操作来迫使其他玩家放弃牌局以获胜或选择过牌、弃牌等操作以降低自己的损失或进入下一发牌伦次。

Libratus的辉煌战绩

2017年1月30日,Libratus与4名顶尖的无限注德州扑克职业玩家Jason Les、Dong Kim、Daniel McAulay和Jimmy Chou进行了为期20天的单挑比赛。在整个比赛期间,Libratus累计与这些职业选手对战达12万手,最终的结果则是Libratus全面取胜,比赛过程中,人类牌手整体上从未领先过。

在4月6日-10日,Libratus在三亚与中国龙之队又进行了一次表演赛,虽然在龙之队中不乏职业高手与人工智能专家,相应的在比赛中也针对性进行了策略调整。但结果仍不出所料,Libratus又一次取得了胜利,而且平均每百手牌可以净胜22个大盲注。毋庸置疑,在无限注德州扑克的单挑领域,在足够手数的比赛中,人类基本上没有战胜Libratus的可能。

Libratus的技术构成

模块一:Nash equilibrium approximation before competition(赛前纳什均衡近似)

这个模块把最重要的博弈信息进行抽取,比如针对某一手牌对应的战略,然后再应用强化学习等方法,继续寻求提高和改进。这里使用了一个新的算法:蒙特卡洛反事实遗憾最小化。在这个模型的帮助下,Libratus自己学会了德扑,而且比以前速度更快。

模块二:Endgame solving(残局解算)

这是Libratus最重要的部分,这个过程不断进行,对手新出一招后,会继续展开新的残局解算。

德扑这类不完美信息博弈,不能拆解为可以独立解决的子博弈。所以Libratus采用残局解算的方法应对。

模块三:Continual self-improvement(持续自我强化)

比赛中人类高手会寻找Libratus的漏洞,并展开有针对性的攻击。这个模块的作用就是发现问题所在,找到更多细节进行自我强化,然后得到一个更好的纳什均衡。

AlphaGo与Libratus

AlphaZero主要是针对完美信息博弈(例如,围棋,象棋和将棋),而Libratus是用于不完美信息博弈。这是一个非常重要的区别。在不完美信息博弈中,玩家可以拥有私人信息,例如,谈判偏好,扑克牌,拍卖中的估价,玩家在网络安全中发现的零时差漏洞等等。大多数真实世界的交互就是不完美信息的博弈。

对于一个给定的游戏规模,不完美信息博弈更难以解决,因为其模型必须在子博弈之间平衡策略。例如,在扑克中,不应该总是看到好手就下注,看到坏手就弃牌。相比之下,在一个完美信息博弈中,一个子博弈只能从该子博弈中获得信息,而不需要与其他子博弈进行平衡。

虽然所属不同的博弈类型,但是Libratus与AlphaGo都是使用强化学习的方法来进行开发。同样最新版的它们都可以完全摒弃人类的经验,从零开始学习进而征服人类。

Libratus虽然在与人类的对抗中取得了巨大的胜利,但hands-up(无限注德州扑克1v1单挑)只是一种特殊的德州扑克游戏模式,以纳什均衡为策略内核的Libratus还不具备在多人游戏中的制霸能力。

在多人游戏中的Libratus虽可以保证自己不身处末位,但也无法保证稳定盈利。研究出可以征服MTT(多桌锦标赛)的人工智能仍有很多困难需要攻克。但纳什均衡的思维方式,学会平衡自己的范围对于德州扑克玩家仍有很强的指导意义。

本文来自企鹅号 - Embark有方博雅媒体

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文来自企鹅号 - Embark有方博雅媒体

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档