前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >AI赢了德州扑克背后,Nature总结最受关注的九大问题

AI赢了德州扑克背后,Nature总结最受关注的九大问题

作者头像
量子位
发布2018-03-21 16:47:28
1.5K0
发布2018-03-21 16:47:28
举报
文章被收录于专栏:量子位
人工智能机器人在无限制下注 扑克中击败顶级职业扑克选手
王新民 编译自Nature 量子位·QbitAI 出品

人类发明的那些智力游戏,快要全面沦陷了。

人工智能已经在国际象棋、跳棋、围棋和西洋双路棋上击败了人类,最近它又占领了扑克领域。 两个不同团队开发的两个机器人,先后在一对一无限制下注的德州扑克上征服了多位职业扑克玩家。

第一个打败职业玩家的算法,是DeepStack,由加拿大阿尔伯塔大学的计算机科学家与查尔斯大学和捷克技术大学的合作者共同开发的。一个月后,在美国宾夕法尼亚州匹兹堡的Rivers 赌场,由卡内基梅隆大学开发的Libratus人工智能系统在匹兹堡的河流赌场接连击败了人类顶尖玩家。

过去10年间,不同团队之间的竞争,催生了更好的算法。

最近,DeepStack团队在Science杂志上发表论文,讨论了他们的德扑算法细节。

论文见:

http://science.sciencemag.org/content/early/2017/03/01/science.aam6960

Nature杂志回顾了这些AI系统的成长历程,并分析了它们所取得的成就对于在线赌场来说意味着什么,以及还有哪些领域等着AI去攻克等等,回答了9个最受关注的问题。

为什么扑克领域如此受关注?

AI已经掌握了大多数棋盘游戏,其中包括复杂的战略游戏。但扑克与棋类游戏相比有一个关键的区别:选手必须在信息不完整的情况下制定策略,也就是说,一个玩扑克的AI,需要根据之前下注的情况来猜测对手拿的是什么牌,以及对手认为自己拿的是什么牌。

这种“不完美信息”游戏,反映着在真实生活中解决问题的场景,如拍卖和金融谈判这样具体的情境。而德州扑克,就是研究人员们测试自己AI程序有效性的一种方式。

AI算法早就攻占了一种简单形式的扑克玩法:阿尔伯塔大学的团队在2015年解决了一对一有限注扑克。而DeepStack和Libratus虽然还是只支持一对一下注的德州扑克,但没有限制玩家的下注量,这个突破使得对应的人工智能算法相当复杂。

AI与人类之间战况如何?

从去年11月开始的4周时间里,DeepStack和11位职业选手中进行了3000手的一对一无限下注德州扑克对战,以显著优势打败了其中10位。

紧接着在今年1月,经过120,000手的角逐,Libratus打败了四位顶尖的职业扑克玩家。需要提到的是,这台计算机一共用了180万个虚拟芯片来辅助计算。

算法背后所用到了哪些数学原理?

博弈论。

两个算法都旨在找到一个不管对手怎么操作,尽量保证不输的策略。因为双人扑克是一个零和游戏,说明一个玩家的损失意味着对手的获利。人类玩家可能会利用对手的失误来获得大胜,这个游戏策略只关心输赢,但AI不同,它们不关心赢多少,只要赢就行。

以前的扑克算法一般试图提前制定战略,计算大规模的“游戏树”,来列举出所有可能的游戏解决方案,可是想要列出多达10160的可能性是有困难的。

所以研究人员希望通过更好地方法来解决这个问题。在扑克游戏中,算法将现场牌局与其先前计算的情况进行比较,通过比较空间距离,确定下一步最合适的确定方法。

现在,像Alaphgo围棋机器人一样,DeepStack和Libratus能够通过高速计算来得到实时的解决方案。

这两个AI的方法有什么不同?

DeepStack不是试图提前算出整个游戏树,而是在游戏中的每个点只重新计算一个短树的可能性来制定最优决定。

开发人员使用深度学习理论创建了基于脑启发式架构的神经网络,下围棋的AlaphGo也用了这种方法。

DeepStack系统通过在超过1100万个游戏场景中进行游戏,并从每个场景中学习,这个AI由此获得了能够判断某游戏获胜可能性的能力,这允许它在相对短的时间(约5秒)内计算更少的可能性,并做出实时的决策。

而Libratus团队尚未发布其具体的实现方法,因此我们不清楚程序是如何工作的。我们所知道的是,该系统可以使用以往的场景以及学习到的先验知识,通过改良后的游戏选择策略,能够实时计算得到最优的策略解。

Libratus的开发者还内置了一种自我提升模块,它能够自动分析机器人的游戏策略,以了解对手如何利用其弱点,然后使用该信息来优化AI方法的策略选择。

这两种方法需要明显不同的计算能力:

训练DeepStack需要150“核年”,也就是一个计算单元运行150年,或者几百台计算机一起运行几个月。但是在游戏过程中,只需要通过笔记本即可实时计算最优解。

相比之下,Libratus在比赛前和比赛期间使用了超级计算机,计算量大约是DeepStack网络的17倍。

AI系统可以诈唬吗?

是的。

诈唬是人类在牌桌上常用的手段,用来迷惑对手。但对于计算机来说,这种手段不是用来获取对手信息的,但和内部制定的游戏策略关系紧密。诈唬只是一种为了确保玩家的下注模式不会透露自己手里有什么牌的手段。

什么样的结果最令人震惊?

这个问题的答案取决于你问谁。

扑克策略研究专家们可以对这两种方法的复杂性进行猜测,但是总的来说,在与职业扑克玩家进行博弈时,两个AI机器人都通过自身游戏策略获得了显著的优势。

Libratus玩了更多手,但DeepStack不需要,因为它的团队使用了一个复杂的统计方法,使他们能够从较少的游戏中证明这个重要的结果。

总的来说,Libratus比DeepStack打败了更好的专业人员,而DeepStack用较少的资源取得了更大的胜利。

这两个AI要比一下吗?

可能会。但关键问题在于,两个AI系统计算能力不同,它们的游戏速度也不同,因此,可能很难制定双方都满意的游戏规则。

阿尔伯塔大学计算机科学家Michael Bowling是DeepStack的开发人员之一,他说他的团队想和Libratus一决高下。但是Libratus开发人员Tuomas Sandholm在卡内基梅隆大学说,他想先看看DeepStack是否能够击败比Libratus稍弱的的早期版本Baby Tartanian8。

Bowling强调,这场比赛可能会带来一个问题:获胜者可能不是最好的机器人。两者都试图打败对方,但理想的对战并不是通过一对一来决定的。因为一个程序可能意外地击中了对方游戏策略中的弱点,但这不一定意味着这个游戏策略具有更多更大的策略弱点。除非一方获得了显著性的优势,不然人们也无法从一次对决中判断他们之间的策略优越性。

这是否意味着网上赌场的终结?

不会,即使很多顶级玩家已经开始用机器人进行训练,但大多在线扑克赌场禁止玩家使用计算机参赛。

现在计算机已经攻占了新的AI里程碑,还有敌乎?

AI技术有很多领域可以进入。

还有很多人类发明的游戏没有沦陷于AI只手,比如说桥牌。它有更复杂的规则,玩家要达成的目标也更模糊。

这两个AI系统下一步的目标应该是解决多人扑克的问题。这可能意味着几乎从零开始,因为零和博弈理论不适用。例如,在三人扑克中,一个对手的不良举动可以间接阻碍另一个玩家,而不是有利于他。

Bowling说,即使在零和理论不适用的情况下,通过深度学习理论有助于找到最佳解决方案。他的团队首次尝试在有限规则的三人版德州扑克中应用了类似的方法,得到的结果令人惊讶。

另一个挑战是在不告知规则的前提下,训练AI系统自己玩游戏。这种情况更真实地反映了人类对于目前所面临现实问题的解决情况。

这些对于德州扑克的探索将是为了能够接下来更好地探索如何解决具有不完整信息的实际问题,如在金融和网络安全中的复杂现实世界问题。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-03-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量子位 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 为什么扑克领域如此受关注?
  • AI与人类之间战况如何?
  • 算法背后所用到了哪些数学原理?
  • 这两个AI的方法有什么不同?
  • AI系统可以诈唬吗?
  • 什么样的结果最令人震惊?
  • 这两个AI要比一下吗?
  • 这是否意味着网上赌场的终结?
  • 现在计算机已经攻占了新的AI里程碑,还有敌乎?
相关产品与服务
流计算 Oceanus
流计算 Oceanus 是大数据产品生态体系的实时化分析利器,是基于 Apache Flink 构建的企业级实时大数据分析平台,具备一站开发、无缝连接、亚秒延时、低廉成本、安全稳定等特点。流计算 Oceanus 以实现企业数据价值最大化为目标,加速企业实时化数字化的建设进程。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档