首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Master虽优势较多但仍有缺陷

来源:《中国人工智能学会通讯》2017年第1期

百家论坛

CAAI 2017年 第7卷 第1期焦李成

Master虽优势较多

但仍有缺陷

近日,Master 在各大围棋网站横扫顶尖职业棋手,随后,谷歌 DeepMind 创始人德米什 • 哈萨比斯在 Twitter 上发布消息,证实了 Master 是 AlphaGo 的升级版。众所周知,围棋困难的地方在于它的估值函数非常不平滑,差一个子盘面就可能天翻地覆;同时状态空间大,也没有全局的结构。这两点加起来,迫使目前计算机只能用穷举法,并且因此进展缓慢。但人能下得好,能在几百个选择中知道哪几个位置值得考虑,说明它的估值函数是有规律的。这些规律远远不是几条简单公式所能概括,但所需的信息量还是要比状态空间本身的数目要少得多,只有找到能学出规律的学习算法,才是解决问题的根本手段。

那么作为人工智能领域的围棋大师,AlphaGo 及其升级版 Master 是如何工作的?总的说来,AlphaGo 结合了三大技术:蒙特卡罗树搜索是大框架,强化学习是通过自我对弈来提升实力的学习方法,深度神经网络(深度卷积神经网络)用来拟合全面评估函数和策略函数实现搜索复杂度的大大约减。当然,《自然》论文详解了AlphaGo 背后的深度神经网络和蒙特卡罗树搜索策略,即使用蒙特卡罗树搜索算法(从非常复杂的搜索树约减至可操作的规模),借助价值网络和策略网络这两种深度神经网络分别来实现评估大量选点与落点(依据胜率高低),二者的结合极大地降低了搜索空间的复杂度,其中价值网络降低搜索的深度、策略网络降低搜索的广度。

AlphaGo 相对人类的优势在于它的大局观天生比人强得多,因为有强大的计算资源保证模拟的终局数量足够,策略网络和价值网络剪枝又保证了模拟的质量。然而,AlphaGo 仍然存在如下三方面缺陷:① 打劫。AlphaGo 会尽量避免打劫。原因是打劫会导致后续算法变得异常复杂,使得结果却充满不确定性。② 策略网络存在着概率隐患。策略网络,即通过人类棋手的历史棋局、自我对弈的强化学习对可能下棋的点做出概率判断,从而缩小范围的核心算法。由于围棋棋局的复杂性,有时对一些重大隐患点可能会认为概率低而有忽略。③ 价值网络也有概率隐患。价值网络,即预测每一步及其后续步骤构成的赢棋概率。同样因为预测步骤有限,有时会对一些目前可行性较小、明显对自己有利的棋之后续较长远局势缺乏正确判断。

作者介绍:焦李成

教育部国际联合实验室主任,科技部国际联合研究中心主任,博士生导师,中国人工智能学会副理事长。主要研究方向为信息对抗、智能信号处理、网络对抗与智能信息处理。

微信号:CAAI-MemberCenter

CAAI会员中心

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180524G1O04Q00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券