解密！德扑界的AlphaGo：击败顶级德扑玩家的AI赌神Libratus

企鹅号小编

发布于 2018-02-11 13:00:31

9360

发布于 2018-02-11 13:00:31

文章被收录于专栏：企鹅号快讯

“AlphaGo退休了，我们还有赌神Libratus。”

今年上半年，AlphaGo多次升级连克人类高手，甚至以3：0一举击败如今世界排名第一的柯洁。而在德州扑克中，人工智能也出现了——Libratus。2017年1月30日，来自CMU的人工智能Libratus战胜了人类顶级德州扑克玩家。然而比赛时，Libratus的创造者并不愿意大肆宣传其运作方式，而这大半年里关于Libratus的信息也鲜有曝光。

直到这个月——在距离NIPS2017开幕还有半个月左右，Libratus的创造者Tuomas Sandholm的个人主页已经显示，他和其博士生的论文《Safe and Nested Subgame Solving for Imperfect-Information Games》获得了NIPS-17最佳论文奖。紧接着15号《Science》杂志发表该预印版本论文，全面解读了Libratus的技术细节。

德州扑克是什么

德州扑克，全称Texas Hold’em poker，德克萨斯扑克。它是一种玩家对玩家的公共牌类游戏。一张台面至少2人，最多22人，一般是由2-10人参加。

德州扑克游戏使用52张扑克牌（一副牌去掉大小王），每个玩家发2张底牌（牌面朝下），再陆续发出5张牌面朝上的公共牌，前三张一起发出来，第四和第五张单独发出来。每个玩家从自己的两张底牌以及五张公共牌（共七张牌）中选择牌型最大的五张与其他的玩家进行比拼，牌型大者获胜。

在发放底牌和公共牌轮次，玩家可以选择下注、加注等操作来迫使其他玩家放弃牌局以获胜或选择过牌、弃牌等操作以降低自己的损失或进入下一发牌伦次。

Libratus的辉煌战绩

2017年1月30日，Libratus与4名顶尖的无限注德州扑克职业玩家Jason Les、Dong Kim、Daniel McAulay和Jimmy Chou进行了为期20天的单挑比赛。在整个比赛期间，Libratus累计与这些职业选手对战达12万手，最终的结果则是Libratus全面取胜，比赛过程中，人类牌手整体上从未领先过。

在4月6日-10日，Libratus在三亚与中国龙之队又进行了一次表演赛，虽然在龙之队中不乏职业高手与人工智能专家，相应的在比赛中也针对性进行了策略调整。但结果仍不出所料，Libratus又一次取得了胜利，而且平均每百手牌可以净胜22个大盲注。毋庸置疑，在无限注德州扑克的单挑领域，在足够手数的比赛中，人类基本上没有战胜Libratus的可能。

Libratus的技术构成

模块一：Nash equilibrium approximation before competition（赛前纳什均衡近似）

这个模块把最重要的博弈信息进行抽取，比如针对某一手牌对应的战略，然后再应用强化学习等方法，继续寻求提高和改进。这里使用了一个新的算法：蒙特卡洛反事实遗憾最小化。在这个模型的帮助下，Libratus自己学会了德扑，而且比以前速度更快。

模块二：Endgame solving（残局解算）

这是Libratus最重要的部分，这个过程不断进行，对手新出一招后，会继续展开新的残局解算。

德扑这类不完美信息博弈，不能拆解为可以独立解决的子博弈。所以Libratus采用残局解算的方法应对。

模块三：Continual self-improvement（持续自我强化）

比赛中人类高手会寻找Libratus的漏洞，并展开有针对性的攻击。这个模块的作用就是发现问题所在，找到更多细节进行自我强化，然后得到一个更好的纳什均衡。

AlphaGo与Libratus

AlphaZero主要是针对完美信息博弈（例如，围棋，象棋和将棋），而Libratus是用于不完美信息博弈。这是一个非常重要的区别。在不完美信息博弈中，玩家可以拥有私人信息，例如，谈判偏好，扑克牌，拍卖中的估价，玩家在网络安全中发现的零时差漏洞等等。大多数真实世界的交互就是不完美信息的博弈。

对于一个给定的游戏规模，不完美信息博弈更难以解决，因为其模型必须在子博弈之间平衡策略。例如，在扑克中，不应该总是看到好手就下注，看到坏手就弃牌。相比之下，在一个完美信息博弈中，一个子博弈只能从该子博弈中获得信息，而不需要与其他子博弈进行平衡。

虽然所属不同的博弈类型，但是Libratus与AlphaGo都是使用强化学习的方法来进行开发。同样最新版的它们都可以完全摒弃人类的经验，从零开始学习进而征服人类。

Libratus虽然在与人类的对抗中取得了巨大的胜利，但hands-up（无限注德州扑克1v1单挑）只是一种特殊的德州扑克游戏模式，以纳什均衡为策略内核的Libratus还不具备在多人游戏中的制霸能力。

在多人游戏中的Libratus虽可以保证自己不身处末位，但也无法保证稳定盈利。研究出可以征服MTT（多桌锦标赛）的人工智能仍有很多困难需要攻克。但纳什均衡的思维方式，学会平衡自己的范围对于德州扑克玩家仍有很强的指导意义。

本文来自企鹅号 - Embark有方博雅媒体

如有侵权，请联系 cloudcommunity@tencent.com 删除。

其他

本文来自企鹅号 - Embark有方博雅媒体

如有侵权，请联系 cloudcommunity@tencent.com 删除。

其他

登录后参与评论

0 条评论

热度

解密！德扑界的AlphaGo：击败顶级德扑玩家的AI赌神Libratus

解密！德扑界的AlphaGo：击败顶级德扑玩家的AI赌神Libratus

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐