专栏首页HyperAI超神经微软麻将 AI 论文发布,首次公开技术细节

微软麻将 AI 论文发布,首次公开技术细节

By 超神经

场景描述:还记得去年 8 月微软发布的「雀神AI」Suphx 吗?今天,该研究团队在 arXiv 上发布了更新版的论文,进一步介绍了 Suphx 背后的技术。

关键词:麻将 AI, Suphx,卷积神经网络

2019 年 8 月 29 日,微软发布了一个名为 Suphx(超级凤凰)的「麻将 AI」,在专业的麻将竞技平台上,Suphx 的实力胜过了顶级人类选手的平均水平。

当时一经发布,Suphx 便引起了广泛的关注,不仅是人工智能领域,不少麻将爱好者也都赶来围观讨论。(可点击此文回顾《一家胡三家的人工智能来了》)

麻将的信息集数目和信息集平均大小

超过了桥牌、德扑和围棋

人们评价该系统比战胜了职业围棋手的 AlphaGo 更复杂,被誉为「最强日麻人工智能」。

今天,该系统的研发团队在 arXiv 上发表了论文《Suphx: Mastering Mahjong with Deep Reinforcement Learning》(《Suphx:掌握麻将与深度强化学习》),更深一步地讲解了 Suphx 背后的技术。

《Suphx:掌握麻将与深度强化学习》

论文地址:https://arxiv.org/pdf/2003.13590.pdf

Suphx 愈战愈勇:已超越 99.99% 玩家

此前我们已经介绍过,Suphx 系统利用深度强化学习,从 5000 场比赛中学习、吸取经验之后,在日本专业的麻将竞技平台「天凤」上击败了众多麻将玩家,取得平台「特上房」的最高段位十段。

Suphx 在天凤平台的段位,远高于其它麻将 AI

这样一个强悍的麻将 AI,究竟是如何打造的?来自微软亚洲研究院、京都大学、中国科学技术大学、清华大学以及南开大学的研究团队,在最新版的论文中,进行了深入的介绍。

从论文中,我们也得知,Suphx 在进一步的学习下,水平也更进一步。在拥有超过 35 万位玩家的「天凤」平台上,被官方评为水平超越 99.99% 以上玩家,这是计算机程序首次超过麻将中大多数顶级人类玩家。

五大模型与强化学习,造就雀神 AI

Suphx 包含一系列卷积神经网络,它学习了五种模型来处理不同的场景,包括 discard(丢弃模型)、Riichi 模型、chow 模型、Pong 模型和 Kong 模型。

discard 模型(上)与其它四个模型的架构(下)

在此基础上,Suphx 采用另一种基于规则的模型,来决定是否宣布赢家并进行下一轮,检查是否赢牌可以从其他玩家丢弃的牌中来判断,或者从排墙上抽出来的牌来判断。

据介绍,Suphx 的训练过程一共分为三步。

首先,它的 5 个模型都使用从「天凤」平台收集的顶级人类玩家的日志进行训练。

然后,使用包含一套基于CPU 的麻将模拟器和基于 GPU 的轨迹生成推理引擎,通过自我博弈强化学习对系统进行微调。

最后,在在线游戏期间,使用运行时策略调整被用来观察当前轮的结果,从而使系统执行得更好。

Suphx 中的分布式强化学习系统

由于麻将牌局中,对手的信息都是未知的,因此,Suphx 尝试了先知教练技术来提升强化学习的效果。在自我博弈的训练阶段,利用隐藏信息引导模型训练方向 ,从而增强 AI 模型对可见信息的理解,并找到有效的决策依据。

评估 :5760 场角逐,创造十段纪录

在实验之前,团队在 44 个 GPU (包括4个 Nvidia Titan XPs 用于参数服务器,40 个 K80s 用于自我博弈玩家)上,使用 150 万次牌局,对每个模型进行了为期两天的训练。

该团队对 20 个 Nvidia Tesla K80 GPU 上的 Suphx 进行了评估。为了减小稳定排名的方差,他们从 100 多万场的麻将牌局数据集中,随机抽取了 80 万牌局的数据,并从中进行了 1000 次取样。

评估结果为,在「天凤」平台与人类玩家进行了超过 5760 场比赛后,Suphx 创造了十段的纪录——大约只有 180 个玩家曾经达到过这个水平。而 Suphx 稳定的排名是 8.74 段(人类玩家最高水平是 7.4 段)。

强化学习 agent 最终稳定排名统计

在不断优化中,RL-2 最终取得更好的表现

有趣的是,研究人员写道,Suphx 的防守「非常强」,放胡的概率很低,只有 10.06%,而且它开发了自己的游戏风格,可以保证牌的安全,并以半平手取胜。

AI 玩家(南方)会选择保守打法

放弃篮筐内的六筒,因为牌桌上已有该牌

此外,论文的合著者写道,大多数现实世界的问题,如金融市场预测和物流优化与麻将有相同的特点。比如复杂的操作/奖励规则、非完美信息问题等等。

作者相信,在 Suphx 中设计的麻将技术,包括全局奖励预测、先知引导以及政策调整等,都有巨大的潜力,将来可广泛应用于现实世界,帮助解决真实而复杂的实际问题。

看到这里,你也跃跃欲试了吗?天凤麻将对战平台:https://tenhou.net/, 一起来一局呀!

—— 完 ——

本文分享自微信公众号 - HyperAI超神经(HyperAI),作者:神经小兮

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-04-02

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 新冠疫情在阻止全球变暖,让地球自愈?你可拉倒吧!

    内容概要:受新冠疫情影响,经济环境急剧收缩,有机构预测全球今年碳排放将达到历史最高水平,远超二战后,和 08 年金融危机,却仍然不能阻止全球变暖的趋势。

    HyperAI超神经
  • 李世石再战 AI 胜负明日揭晓【智能快讯】

    AI 无处不在的时代,每天都有新的技术与研究成果出现。无论学术界还是商界,技术还是产品,AI 的新发现都源源不断,在带给我们全新视角的同时,也引起我们更深的思考...

    HyperAI超神经
  • 嘿,图灵,生日快乐!

    这位被后世称为「人工智能」之父的伟大数学家、密码学家、哲学家,却在他短短的四十二年生命中,体验了少年成名、荣誉满堂,也尝尽了壮士断腕、世人冷眼的滋味。

    HyperAI超神经
  • iOS中表单视图第三方控件——FXForms 原

            表单视图是移动开发中十分常用的一种UI方式。在iOS开发中,系统的UITableView可以用来创建表单视图,其界面的渲染与逻辑的处理需要开发者...

    珲少
  • 发射一颗自己的卫星,你准备好了吗?

    人造卫星曾是财力殷实的国家政府和资金雄厚的企业机构的独家玩具。但随着对太空的探索越来越大众化,相关的复杂技术也越来越普及。

    大数据文摘
  • case 判断

    老七Linux
  • 前端|如何用HTML打印一个六边形

    六边形在我们网页的制作中,运用得并不是特别广泛。但在一些制作精美,要求创新的一些网页上,我们还是不难看到六边形的身影,如下图1.1所示。用六边形组合的蜂窝状图形...

    算法与编程之美
  • jquery中使用event.stopPropagation()阻止事件冒泡

    案例如上图:点文档关闭菜单,点按钮打开菜单。因为按钮在文档内,所以会产生事件冒泡使得在点按钮打开菜单时无法正常执行。所以我们需要阻止事件冒泡。例子代码如下: ...

    用户1730674
  • elasticsearch-快速入门

    正排索引是从文档到关键字的映射(已知文档求关键字),倒排索引是从关键字到文档的映射(已知关键字求文档)。

    黎明大大
  • 开干!Elasticsearch官方文档离线访问实操指南

    链接:https://pan.baidu.com/s/1CvI6wCZrJaJtTydsknD5GA

    铭毅天下

扫码关注云+社区

领取腾讯云代金券