人工智能将成为新任赌神:DeepMind 能玩转扑克牌吗?

DeepMind(Google 子公司 )的人工智能 AlphaGo 成功以 4 比 1 的战绩击败冠军级围棋选手李世石,并借此向世人宣告人工智能技术已经攻克围棋项目。那么值得 DeepMind 攻坚的下一项任务又会是什么呢?

伦敦大学学院(University College London)的两位研究员撰写了一篇论文,并在论文中提出了一个值得人工智能技术攻坚的项目:扑克牌。和围棋项目不同,人工智能技术若能在扑克项目上取得胜利,研究人员可以将所赢取的资金作为后续科研经费使用。至少在人类醒悟并决定不再在扑克牌上和人工智能产品对赌之前,这个想法依然奏效。

论文的两位作者分别是约翰内斯·海因里希(Johannes Heinrich)和大卫·西尔韦(David Silver),前者是伦敦大学学院的在读研究生,而后者则是伦敦大学学院的讲师。但西尔韦还有着另一层身份:他是 DeepMind 的雇员,而且还是 AlphaGo 项目的主要编程人员。一直以来,西尔韦都被称为是 DeepMind 中默默无闻的英雄,但这篇论文主要和他在伦敦大学学院的工作有关。

论文的研究课题为「从不完全信息游戏的自我博弈中深度强化学习」,作者在论文中描述了他们尝试教导电脑 2 种扑克牌游戏的过程,这两种游戏分别为只使用 6 张扑克牌的简化游戏「Leduc」以及在全世界广受欢迎的德州扑克。

两位研究人员所使用的机制和 AlphaGo 击败李世石时所使用的非常相似。在实验中,计算机通过自学的方式成功掌握了德州扑克的技巧。据称,实验所用计算机在德州扑克上的表现已经接近人类专家水平,所使用的策略也非常先进。而在 Leduc 的表现中,计算机会采取尽量靠近纳什均衡的策略,亦即游戏中的一个数学最优解。

和 AlphaGo 的项目一样,这次两位研究员也使用了所谓的深度强化学习技术,这种技术融合了两种不同的机器学习方法:神经网络技术和强化学习技术。前者通常被应用于大数据领域,由简单决策点组成的网络经过大量信息的训练后可以解决异常复杂的难题。

但在训练数据数量不足,或者训练数据不足以保障训练质量时,强化学习技术可以帮上忙。在这门技术的支撑下,机器在执行任务时可以从自己的错误中吸取教训,进而强化训练效果。这个循环会一直持续,直至机器的表现达到要求为止。和人类选手不同,计算机在学习扑克牌技巧时可以和自己进行博弈,海因里希和西尔韦将这个过程称为「神经虚拟自我博弈」。

在自我博弈的过程中,扑克牌系统可以独立地找出扑克牌游戏的数学最优策略,研究人员甚至无需提前将和扑克牌相关的知识通过编程传授给机器。在某种程度上,扑克牌甚至比围棋更能让计算机为难,因为计算机不能从中获取完全信息。尽管计算机可以通过概率知识精准计算出对手持有某张手牌的概率,但它并不能理解对手的行为。

尽管在本次实验中,计算机仍然未能考虑对手的心理因素,但海因里希和西尔韦却指出在他们的计算机会自我创造,而不仅仅是依赖专业知识。

在接受《卫报》(Guardian)采访时,海因里希表示:「实验结果的关键在于我们所使用的算法具有一般性,且计算机可以在没有任何先行知识的情况下从零开始学习扑克牌游戏。由此我们不难推测,这种方法面对所有的策略性问题都有效。」

「最大的障碍在于一般强化学习技术所关注的更多是单个个体和静态世界之间的互动情况,而策略性问题更多关乎多个个体之间的互动情况,这种情况所牵涉的问题要更富动态性,同时也更具挑战性。」

海因里希补充道:「游戏的不完全信息特质也给深度强化学习构成了障碍,这一点和围棋的机制很不一样。我们有必要克服不完全信息所带来的问题,因为在解决现实问题时,机器往往需要在不具备完全信息的情况下作出决策。」

数学家非常热衷于扑克游戏,他们认为这些游戏在现实世界中极具代表性。扑克博弈中信息的隐藏性、报酬的倾斜性以及心理等因素在冷战时期的政治博弈中得到了极大的体现。博弈论正是从扑克牌等游戏项目中衍生而成,但现在气候变化和人口性别比例等复杂问题都已经被纳入博弈论的范畴。

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2016-03-31

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏钱塘大数据

从AlphaGo到BeltaGo,未来如何下好AI这局棋?

2016年,人工智能60周年。 1956年夏,麦卡锡、明斯基等正式确立了人工智能(ArtificialIntelligence)这一术语,标志着人工智能学科的诞...

43112
来自专栏企鹅号快讯

回顾2017,AI “教父” 这么说

2017年AI界是百家争鸣,在全球掀起了一波巨潮,工业机器人、语言翻译、自动驾驶、机器人诊断等呈现出过程式的飞跃进展。 不过,在AI“教父”Geoffery H...

21810
来自专栏大数据文摘

吴恩达更新了!深度学习系列课程第5课放出,全剧终

26912
来自专栏奇点大数据

数据科学家节选(4)

人们热衷于进行各种数据观测、拟合,希望对数据进行可期望的预判,这种行为究竟本质上是在做什么呢?从带有一定功利色彩的眼光来看,这实际上是一种趋利避害的过程。 在...

2587
来自专栏罗超频道

忘了黄金时代,理性看待大数据预测

在世界杯预测时准确率超高的百度大数据预测在稳步推进时遇到了一个小障碍,尚处于内测的票房预测对《黄金时代》的预测与实际结果出现了偏差,被媒体长篇报道引发业内高度...

3524
来自专栏新智元

DeepMind后继有人,图式网络通用性完胜AlphaGo?

【新智元导读】一家名为 Vicarious 的初创公司开发出了一个新的具有突破意义的 AI,名为“图式网络”(Schema Network)。这一网络被用来和 ...

3478
来自专栏大数据文摘

AlphaGo彻底战胜人类意味着什么

25310
来自专栏AI研习社

【AI听】AlphaGo Zero实力碾压旧狗!世界首款人工智能芯片华为发布,英特尔新推Nervana神经网络处理器……

本周关键词 Intel Nervana|华为Mate 10 AlphaGo Zero|吴恩达Woebot 主播 | 吴璇 ▼点击可听 \ 这里有你想知道的本周...

43212
来自专栏钱塘大数据

【干货】未来人工智能:从AlphaGo到BeltaGo

作者:杨小康 2016年,人工智能60周年。 1956年夏,麦卡锡、明斯基等正式确立了人工智能(ArtificialIntelligence)这一术语,标志着人...

3845
来自专栏AI科技评论

德扑 AI 之父解答 Libratus 的13个疑问:没有用到任何深度学习,DL 远非 AI 的全部

AI 科技评论按:昨天晚上,卡耐基梅隆大学计算机系在读博士生 Noam Brown 和计算机系教授 Tuomas Sandholm 来到 reddit 的机器学...

3576

扫码关注云+社区

领取腾讯云代金券