专栏首页新智元人工智能将成为新任赌神:DeepMind 能玩转扑克牌吗?

人工智能将成为新任赌神:DeepMind 能玩转扑克牌吗?

DeepMind(Google 子公司 )的人工智能 AlphaGo 成功以 4 比 1 的战绩击败冠军级围棋选手李世石,并借此向世人宣告人工智能技术已经攻克围棋项目。那么值得 DeepMind 攻坚的下一项任务又会是什么呢?

伦敦大学学院(University College London)的两位研究员撰写了一篇论文,并在论文中提出了一个值得人工智能技术攻坚的项目:扑克牌。和围棋项目不同,人工智能技术若能在扑克项目上取得胜利,研究人员可以将所赢取的资金作为后续科研经费使用。至少在人类醒悟并决定不再在扑克牌上和人工智能产品对赌之前,这个想法依然奏效。

论文的两位作者分别是约翰内斯·海因里希(Johannes Heinrich)和大卫·西尔韦(David Silver),前者是伦敦大学学院的在读研究生,而后者则是伦敦大学学院的讲师。但西尔韦还有着另一层身份:他是 DeepMind 的雇员,而且还是 AlphaGo 项目的主要编程人员。一直以来,西尔韦都被称为是 DeepMind 中默默无闻的英雄,但这篇论文主要和他在伦敦大学学院的工作有关。

论文的研究课题为「从不完全信息游戏的自我博弈中深度强化学习」,作者在论文中描述了他们尝试教导电脑 2 种扑克牌游戏的过程,这两种游戏分别为只使用 6 张扑克牌的简化游戏「Leduc」以及在全世界广受欢迎的德州扑克。

两位研究人员所使用的机制和 AlphaGo 击败李世石时所使用的非常相似。在实验中,计算机通过自学的方式成功掌握了德州扑克的技巧。据称,实验所用计算机在德州扑克上的表现已经接近人类专家水平,所使用的策略也非常先进。而在 Leduc 的表现中,计算机会采取尽量靠近纳什均衡的策略,亦即游戏中的一个数学最优解。

和 AlphaGo 的项目一样,这次两位研究员也使用了所谓的深度强化学习技术,这种技术融合了两种不同的机器学习方法:神经网络技术和强化学习技术。前者通常被应用于大数据领域,由简单决策点组成的网络经过大量信息的训练后可以解决异常复杂的难题。

但在训练数据数量不足,或者训练数据不足以保障训练质量时,强化学习技术可以帮上忙。在这门技术的支撑下,机器在执行任务时可以从自己的错误中吸取教训,进而强化训练效果。这个循环会一直持续,直至机器的表现达到要求为止。和人类选手不同,计算机在学习扑克牌技巧时可以和自己进行博弈,海因里希和西尔韦将这个过程称为「神经虚拟自我博弈」。

在自我博弈的过程中,扑克牌系统可以独立地找出扑克牌游戏的数学最优策略,研究人员甚至无需提前将和扑克牌相关的知识通过编程传授给机器。在某种程度上,扑克牌甚至比围棋更能让计算机为难,因为计算机不能从中获取完全信息。尽管计算机可以通过概率知识精准计算出对手持有某张手牌的概率,但它并不能理解对手的行为。

尽管在本次实验中,计算机仍然未能考虑对手的心理因素,但海因里希和西尔韦却指出在他们的计算机会自我创造,而不仅仅是依赖专业知识。

在接受《卫报》(Guardian)采访时,海因里希表示:「实验结果的关键在于我们所使用的算法具有一般性,且计算机可以在没有任何先行知识的情况下从零开始学习扑克牌游戏。由此我们不难推测,这种方法面对所有的策略性问题都有效。」

「最大的障碍在于一般强化学习技术所关注的更多是单个个体和静态世界之间的互动情况,而策略性问题更多关乎多个个体之间的互动情况,这种情况所牵涉的问题要更富动态性,同时也更具挑战性。」

海因里希补充道:「游戏的不完全信息特质也给深度强化学习构成了障碍,这一点和围棋的机制很不一样。我们有必要克服不完全信息所带来的问题,因为在解决现实问题时,机器往往需要在不具备完全信息的情况下作出决策。」

数学家非常热衷于扑克游戏,他们认为这些游戏在现实世界中极具代表性。扑克博弈中信息的隐藏性、报酬的倾斜性以及心理等因素在冷战时期的政治博弈中得到了极大的体现。博弈论正是从扑克牌等游戏项目中衍生而成,但现在气候变化和人口性别比例等复杂问题都已经被纳入博弈论的范畴。

本文分享自微信公众号 - 新智元(AI_era)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2016-03-31

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Epic Games发布虚幻引擎5,史诗级游戏画面堪比电影镜头!

    Epic Game官方发布的视频中,一段在PlayStation 5上的实时demo,让我们见识到实时的游戏画面,竟然可以跟电影镜头比清晰度,和物理世界比真实感...

    新智元
  • 【强化学习炼金术】李飞飞高徒范麟熙解析强化学习在游戏和现实中的应用

    来源: 心有麟熙 作者: Jim 范麟熙 编辑:张乾 【新智元导读】斯坦福大学博士生、师从李飞飞教授的Jim Fan(范麟熙)以轻松有趣的方式介绍了强化学习和游...

    新智元
  • 玩了5万局游戏,英伟达让GameGAN自己生成「吃豆人」,世界首创无需游戏引擎

    GAN的生成——对抗属性,让他一出生就具有强烈的造假能力,GAN最让人熟知的就是臭名昭著的Deepfake。

    新智元
  • 转 GO json解码和编码

    霡霂
  • 1.13 单用户模式

    在linux系统中忘记密码时,去更改密码时; (前提:必须是在物理机或服务器上人为操作) 在出现启动界面的那一刻按上下方向键,选择上面那个,按e键编辑; ...

    运维小白
  • Linux 搭建 Nginx+PHP-FPM环境

    到此为止,在浏览器地址栏上输入demo.zhuchenglin.cn就可以正常访问PHP网站了。

    lin_zone
  • 溯源黑帽利用 Web 编辑器漏洞非法植入 SEO 页面事件

    知道创宇威胁情报中心-业务安全舆情监测平台不断发现大量网站被植入非法SEO内容页面,且最近有明显上升的现象,2020年4月至6月发现了6,802个网站被植入了4...

    Seebug漏洞平台
  • Mendix使用java创建Rest服务

    Erwin
  • 看金牌讲师重新制作微信跳一跳python辅助工具,这次是自动版!

    云飞
  • CSS 3.0 结合video视频实现的创意开幕

    越陌度阡

扫码关注云+社区

领取腾讯云代金券