德州扑克被AI攻破?刚进行到围棋九路盘而已

德州扑克被AI攻克?才刚开始

作者:余小鲁

作者系理论物理博士,人工智能专家。新浪扑克学院特邀讲师

Sunday, 31 December 2017

余小鲁博士(右)在新浪总部大厦接受专访

不只是一个纸牌游戏——德州扑克AI的意义

和谷歌研究围棋AI一样,卡内基梅隆大学研究德州扑克AI,也是“志不在此”。因为德州扑克中存在很多和社会生活类似的普遍难题,此研究才有根本重要的意义。德州扑克AI的意义

德州扑克AI的里程碑——Libratus(冷扑)

Libratus是“balanced”的拉丁文,意为均衡(大陆翻译为冷扑。这个翻译非常的妙,读音相近,而且这个AI打德州扑克非常冷,是冷血的极致,下文再细解。)。balanced是德州扑克网络革命这十年来最热的一个概念,根源于数学的博弈论。我们在此不用数学公式,试图用大白话先来解说这个概念。

李开复等讲解德扑人机对抗

剪刀石头布的游戏,如何玩才能保持不败呢?比如说我随机的50%出剪刀,30%出石头,20%出布,你如何打败我?随机性并不难懂,比如我们可以看自己的手表,秒针超过六点出剪刀,不到二点二分出布,其余出石头。稍微思考一会就知道,你应该永远出石头,也就是说一百次你会平均赢50次,平手30次,输了20次。统计上,我就被你打败了,直观上讲我的游戏策略不是均衡的(balanced)。那么我稍微改进一下,我随机的1/3出剪刀,1/3出石头,1/3出布,这个策略是不可被打败的,可以称为博弈论最优解(GTO)。再细想一下,这个策略虽然不可以被打败,但是对手无论用什么策略我都结果一样,不会获胜也不会失利,也就是说我的策略使得可以不再关心对手用何种策略(indifference threshold)。德州扑克的游戏结构比剪刀石头布复杂得多,但核心概念是类似的。冷扑之所以能冷,能获胜,就是找到了每一种局面下可以采取某种特定策略使得可以不再关心对手采用何种策略,简单的说,就是有效避免了德州扑克里面猜来猜去的怪区。最大的不同在于,剪刀石头布的博弈论最优解的期望值是零。德州扑克里面很多局面下最优解的期望值是正数,这就是冷扑打败人类牌手的数学基本出发点。冷扑的三大模块 冷扑的策略

Libratus(冷扑)和人类牌手的比较冷扑相较于人类牌手的优势冷扑相较于人类牌手的劣势

冷扑与阿尔法围棋对比

德州扑克的理论

何谓理论?抽象的说,就是人为构造一套概念框架,在这个框架里面进行逻辑演绎来理解事物。举个围棋的例子,我们人为的构造了一个叫“厚势”的概念。人为构造的概念往往有一定的模糊性,厚势或者可以先定义为铁活或者不容易受到攻击且对中腹有影响的一些棋子组合。进一步的逻辑演绎,中国古人形成了一个理论叫“勿近厚势”。对方的厚势不要去靠近,甚至自己的厚势也不要去靠近,都会影响棋子的效率。粗粗看起来,这样的“理论”很有道理,很有说服力,像讲故事一样,我们称之为“故事理论”。

计算机人工智能不适合这样的故事理论。无论是阿尔法围棋,还是冷扑,都不是使用这种理论。但几乎所有的德州扑克培训班,教学视频,经典技术书籍,教的都是这样的故事理论。比如说,转牌拿一个顶对弱踢脚(top pair weak kicker)过牌控制彩池,不要跟石头(nit)的加注,等等。大多数故事理论都有两面性,就是这个故事经常可以反过来讲,让你无从选择正确的决策。比如你的对手刚刚输掉两个大彩池,你准备现在给他一个大的诈唬(bluff),你的理论依据是这样的一个故事:他刚输掉两个大彩池,现在有点手软,不敢持边缘牌跟注,所以我的诈唬是好的。但这个故事理论也可以这么讲述:他刚输掉两个大彩池,现在有点上头(tilting),千万不要去诈唬他。

冷扑对战中国牌手

那么人工智能冷扑用的究竟是何种理论?前面的剪刀石头布游戏已经可以看出一点端倪,但真实完整的无限注德州扑克太过复杂,我们可以用个迷你版的德州扑克来代替。现在只有两个玩家,小盲注0.5个筹码,大盲注1个筹码,每个玩家桌子上总共有十个筹码。小盲注先做决定,这个游戏设定只给他两个选项:全下或者弃牌。那么冷扑的理论是什么呢?或者说人工智能是要求解什么东西?

第一,冷扑求解出来小盲注持什么牌需要弃牌,什么牌需要全下。

第二,冷扑求解出来大盲注持什么牌需要弃牌,什么牌需要跟注。

第三,以上一二两点称为这个游戏的策略,必须证明这个策略为什么是最优解,不能变动。

第四,这个游戏是对小盲注有利,还是对大盲注有利?这个利益如何量化,精确计算得到?

大家可以看到,即使是这样一个迷你版的德州扑克,比真实德州扑克简化了不知道多少,要使用这种理论精确求解,依然非常之复杂。这也就是我们大家学习德州扑克,学的都是“故事理论”,而不是冷扑这样的“数学理论”。阿尔法围棋最新推出了一个教学工具,对棋届可以说功德无量。但阿尔法的“教学”,不是一个“故事理论”,当代职业顶尖棋手要当阿尔法的学生,必须从阿尔法的“教学”给出来的棋路中,自己重新讲个故事给自己听,形成一个新的故事理论,才能吸收到阿尔法围棋的精髓。冷扑的牌路给我们的启示也是类似的,每一个顶尖牌手,只能成为一个编剧,把冷扑的打法讲成一个自己能够理解的故事,从中不断试错和深造。

德州扑克的浩瀚版图

我们通常说的德州扑克,都指的是无限注德州扑克。印证了德扑教父道尔布兰森在其名著《超级系统》中的话:无限注德州扑克是扑克中的凯迪拉克。

作者在MTT比赛现场

无限注德州扑克的比赛形式非常繁多,目前比较主流的智力竞技模式有两种,即时锦标赛(SNG)和常规锦标赛(MTT)。每一桌子的人数有2人,6人,9人,10人多种格式。。再加上盲注抽水(ante)的增长快慢,总彩池的大小,奖金分布结构,诸多因素的组合,可以说德州扑克的常见比赛形式不下百种。而冷扑只擅长里面唯一一种游戏结构,就是单挑(又称一对一,heads up)形式的无限注德州扑克。即使有超级计算资源,其基于博弈论的算法要推广到以上所说的种种比赛形式,还有非常漫长的路要走。冷扑对德州扑克的冲击力,远远不如Alpha Go对围棋的冲击力,其根本原因就在于此。

补注:

冷扑之父

1。 卡内基梅隆的Noam Brown博士,也是冷扑的主要创造者之一,认为未来两年下一代的AI有可能战胜六人桌,作者表示存疑,让我们一起拭目以待。

2。 对于有兴趣深入了解冷扑算法的读者,可以参考2017年12月17日在美国《科学》 上发表的论文 Superhuman AI for heads-up no-limit poker: Libratus beats top professionals。

本文来自企鹅号 - 新浪体育媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏量子位

那个赢了176万美元的德扑AI,马上要来中国掀起人机大战了

转载自 新浪科技 作者 李根 ? 3月24日下午消息,新浪科技今日独家获悉,卡耐基梅隆大学(Carnegie Mellon University,以下简称CM...

38010
来自专栏企鹅号快讯

一年坎坷也曾怀疑自己,如今五冠在手的柯洁将再战AI

柯洁、於之莹任形象大使 中新网客户端北京12月27日电(记者 岳川) 刚刚成为史上最年轻“五冠王”的世界冠军柯洁九段将于明年再战人工智能。柯洁27日表示,弈无止...

19710
来自专栏新智元

【柯洁乌镇终败】全盘回顾人类最后希望与围棋上帝终极PK

【新智元导读】“英雄”、“人类最后的希望”柯洁还是输了。在胜负大局已定的第三盘比赛中,柯洁再次输给了AlphaGo。自此,阿老师在围棋上完成超越人类三部曲。在人...

3515
来自专栏机器之心

深度 | 升级版AlphaGo 5月决战柯洁,DeepMind揭秘计算机全新棋风

机器之心原创 参与:李泽南、李亚洲、吴攀 4 月 10 日下午,谷歌在北京的中国棋院召开新闻发布会,正式宣布 AlphaGo 将于今年 5 月 23 日在浙江乌...

36310
来自专栏量子位

独家 | 在CMU对话德扑AI团队:解密1+2技术架构,不攻反而不败

舒石 希拉 发自 CMU 量子位 报道 | 公众号 QbitAI △ Sandholm教授:冷扑大师,来了~ 放下想赢的执念后,AI赌神再没输给人类。 这个A...

2735
来自专栏新智元

【AlphaGo2.0乌镇首局击败柯洁】人机最伟大对弈剖解,超级AI阿老师将围棋3维化

【新智元发自中国乌镇】在围棋峰会开幕式致辞中,DeepMind CEO Demis 表示,樊麾已经成为 AlphaGo 开发团队中的一位重要成员。樊麾表示,自己...

2795
来自专栏镁客网

现在的谷歌AlphaGo想挑战顶级选手会成功吗?

2095
来自专栏机器之心

柯洁1/4子惜败,机器之心独家对话AlphaGo开发者导师 Martin Müller

机器之心报道 参与:杜夏德、李泽南 第一战,AlphaGo 赢了!几乎不出人意料。 5 月 23 日,中国围棋协会和浙江省体育局携手谷歌联合主办的「中国乌镇·...

2868
来自专栏量子位

输了!柯洁首战告负AlphaGo,哈萨比斯:这不是人机大战

唐旭 若朴 发自东瑶村 量子位 报道 | 公众号 QbitAI 19岁的柯洁输了。 围棋人机大战2.0版的第一场,双方交锋至第286手棋,执黑的柯洁以约四分之一...

34610
来自专栏AI科技评论

重磅 | 继 AlphaGo 又一突破:人工智能战胜德州扑克职业选手

AI 科技评论消息:当地时间 1 月 30 日,在宾夕法尼亚州匹兹堡的 Rivers 赌场,卡耐基梅隆大学(CMU)开发的人工智能系统 Libratus 战胜四...

3258

扫码关注云+社区

领取腾讯云代金券