冷扑大师 AI 简史:你用德扑来游戏,人家用来发 Science

前言

人类又输了......

创新工场组织的一场“人工智能和顶尖牌手巅峰表演赛中”,机器人 AI 冷扑大师赢了人类代表队龙之队 792327 记分牌,最后 200 万奖励归机器人所有。

在围棋项目上人类的一票大师已经被 AlphaGo 虐得得不行。然而这还不算完,最近有在朋友圈里看到不少 “ AI 首次在德州扑克战胜人类职业玩家,新算法让机器拥有直觉 ” 这类新闻。

所以简单给大家介绍下本次获胜的 Poker AI Libratus,以下解读来源于胡开亮同学的知乎回答。

CMU 的 Libratu 原理,也是发过 Science 论文的内容

http://www.cs.cmu.edu/~sandholm/Solving%20games.Science-2015.pdf

首先跟大家简单介绍下纳什均衡的概念——纳什均衡是指一个策略组,任何玩家都无法通过单方面的改变策略来增加收益。纳什均衡策略组中的每个玩家的策略都是对策略组中其他策略的最佳反应。纳什均衡策略组很重要,因其在两人零和博弈中有额外的属性。在两人零和博弈中,若某玩家从纳什均衡策略组中选中一个策略,其他玩家改变策略不会获得更大的收益。 而在大部分 Poker AI 中都是希望求解出来的策略组跟真正的纳什均衡足够的近记为
。 所以这样策略组的 exploitability 是足够小的,在假定对手有足够能力的来利用我的缺点 (given sufficient exploitative power) 的情况下,我的策略也是可行的。

介绍完纳什均衡后,我们可能在想怎么求解德州扑克中的纳什均衡,接着介绍用来求解均衡的 CFR ( Counterfactual regret minimization ) 中文名字叫:虚拟遗憾最小化算法。 CFR 来源于 Regret matching 算法,然而 Regret Matching 算法只能适用于正则博弈中,对于德州扑克这类扩展式博弈中无法直接使用 Regret Matching , 通过定义 Counterfactual Value 在每一个 Information Set 上进行 Regret Matching 来减少每一个 Information Set 上的 Immediate Regert ,而 Immediate regret 的和是小于 external regret.而 external regret 跟

- nash equilibrium 之间是有关系的,从而可以使用 CFR 来求解出纳什均衡解。但是 CFR 的空间复杂度为
,对于二人限制性的通过一些lossless abstraction 后就可以直接求解,对于二人非限制性(游戏空间大概为
)根本无法直接求解,故先用 abstraction 然后再 CFR,大致的流程如下:

然而到了13年的时候 Sam ( Noam 的师兄,CMU 的 PHD ) 首次将 Endgame 残局的思想引入到了二人非限制性中来了上图的框架变成了如下图所示。

在 Endgame 中 agent 会根据玩家的在前几轮的 action,然后根据 action 所反映出来的手牌信息,对 Endgame 进行实时求解。实时计算需要具备强大的计算能力,这也是为什么 Librauts 在实际比赛中需要 Brideges 的原因。

上面就是 Libratus 的 part one- nash equilibrium approximation before the competition 和 part two-Endgame solving 的简单介绍,在实践中会用到很多 trick , 就拿 CFR 的改进来说--如何 Sample , Warm start, Pruning 以及 Thresholding 等等。在 Information Set abstraction 过程中如何选择特征进行聚类等等。

AI as a service,会让AI触手可及

其实除了 Libratu, Poker AI 领域还有 Alberta 大学的 DeepStack(https://arxiv.org/pdf/1701.01724v1.pdf)

当AI的来临变得不可避免的时候,开发者们需要思考如何让自己更快的拥抱 AI 时代。对于开发者而言,在深度学习领域常用的一些算法其实未来都可以通过腾讯云等公有云厂商的 API 方式进行调用。

例如把游戏或者 APP 服务器上的日志实时地同步到 COS 对象存储中,采用 DI-X 调度云端强大的 CPU 和 HPC 计算能力对用户行为或其他游戏日志进行数据清洗等预处理;接下来采用 Scale 等特征工程技术进行特征处理后的特征信息即可进入模型训练环节,训练完毕的模型将会被保存于 COS 对象存储中,以便于进行游戏流失率的预估。

游戏运营专家可以在游戏动态运营系统上,根据游戏流失率的预估结果选择策略以进行低活跃用户召回、用户流失原因分析、推广活动效果评估等动态运营。

小结:

人工智能处理人机对弈的信息模式可大致分为完美信息、不完美信息两类,大致对应两类博弈:围棋 vs 扑克。在这两个领域,人类都已经输给了人工智能,对于未来的开发者而言,拥抱而非排斥 AI 更为现实,而云计算会把 AI 的能力变得像水和电一样,更加触手可及。

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

编辑于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏BestSDK

什么是实践中,真正的大数据科学系统?

产生推荐   实际上,有非常多的方法可以由数据驱动产生推荐。例如在所谓的“协同过滤”里,所有用户的行为都可以被收集起来作为推荐的基础,然后分析发现哪些商品有相似...

36916
来自专栏AI科技评论

从CPU、GPU再到TPU,Google的AI芯片是如何一步步进化过来的?

按:本文作者栗向滨,中科院自动化所复杂系统国家重点实验室研究生,主攻机器人与人工智能。 ? Google I/O是由Google举行的网络开发者年会,讨论的焦点...

2817
来自专栏FreeBuf

详解GPS欺骗 | 针对导航系统的「致命攻击」

1 事件 1月12日,就在奥巴马准备发表任上最后一次国情咨文演讲的前一小时,两艘载有10名海军的美国巡逻艇因驶入伊朗水域,被伊朗军方扣押,这一突发事件,给总统的...

2638
来自专栏PPV课数据科学社区

深度剖析Data Mining(值得收藏)

DataMining主要功能 Data Mining实际应用功能可分为三大类六分项来说明:Classification和Clustering属于分类区隔类;Re...

3477
来自专栏FreeBuf

这下好了,家里的智能灯泡都会泄露数据了

近日,来自国外的研究人员提出了一种新的技术,可以从智能灯泡获取用户的数据。举个例子,研究人员能够从远处记录智能灯泡的亮度模式来获取用户的偏好。

633
来自专栏机器之心

教程 | 如何通过57行代码复制价值8600万澳元的车牌识别项目

选自Medium 作者:Tait Brown 机器之心编译 参与:蒋思源、黄小天 Tait Brown 利用 Openalpr 库和 VicRoads API ...

3856
来自专栏企鹅号快讯

邱寒:新零售笔记(四)基于区块链大数据的人工智能

人工智能是新零售的基础技术之一,但目前的人工智能主要是基于大数据的深度学习,数据的广度、深度、结构化与粒度对深度学习的模型和结果有非常大的影响。 ? 区块链对于...

2019
来自专栏大数据文摘

王昊奋:大规模知识图谱技术

4665
来自专栏PPV课数据科学社区

22个对于数据科学家来说容易犯的错误

对于软件工程师或数据科学家来说,下列错误是很容易犯(随意顺序):列表如下: 在团队没有尽自己的能力出力。 把自己看成以为天才。 使用一些上司看不懂的专业...

3386
来自专栏腾讯位置服务

距离矩阵服务上线,实现最优派单及路径解决方案

继一对多的距离计算服务后,腾讯位置服务近日再次升级,推出更为强大的距离矩阵(多对多)距离服务。从计算性能上来看,多对多矩阵最高支持25×25矩阵(一次请求计算路...

732

扫码关注云+社区