AlphaGo升级版AlphaZero出现!棋力大涨统治3大棋类

AlphaGo自2017年“退役”后就很少再出现了,它的传说仍然流传甚广。不过前几日DeepMind发布了关于Alpha人工智能的最新消息,让我们一起来看看吧:(原文很长,小编稍作整理)

2017年年末,DeepMind的研究人员宣布他们的 AI 程序进化到了AlphaZero,并且利用自对弈强化学习,在短时间内打败了顶尖的国际象棋和将棋程序,当然围棋程序也更精进了。

AlphaZero的学习方法是利用一套深层神经网络与大量通用型算法取代了手工编写的规则。更重要的是,除了基本规则之外,这些算法中没有预设任何固有方法。

这种从零开始学习棋类技艺的能力不会受到人类思维方式的束缚,因此催生出一种独特、不同于传统且极具创造力及动态思考风格的对弈方法。

AlphaZero学会玩国际象棋用了9个小时,而学会玩日本将棋用了12个小时,学会围棋花了13天!

在学习棋艺的过程中,这套未训练神经网络利用强化学习这一实验与试错流程进行数百万轮自我对弈。最初,基本就是随意乱下,但随着时间推移,系统会从胜利、失败与平局当中汲取经验,调整神经网络参数,确保自身在未来的选择中做出更加有利的判断。(是不是很像人类?)

训练完成之后,这套网络将指导蒙特卡洛树搜索(Monte-Carlo Tree Search,简称MCTS)算法选择当前盘面中最有利的走法。在每一步棋中,AlphaZero进行的位置搜索量只相当于传统棋类引擎的极小一部分。以国际象棋为例,AlphaZero每秒只需要搜索6万个位置,Stockfish则需要搜索大约6000万个位置。

在国际象棋中,与Stockfish的1000场比赛中,AlphaZero赢了155场,输了6场。此外,它在以人类常见的下棋策略为开局的游戏中也名列前茅。

与此同时,在将棋游戏中,AlphaZero以91.2%的几率击败了2017年CSA世界冠军版本的Elmo。

在围棋中,AlphaZero与AlphaGo Zero的对弈中,它赢了61%的比赛。

除了胜负之外,更重要的是AlphaZero在对弈中展现出的风格,这种其它传统棋类引擎所不具备的独特能力,给众多棋类爱好者们带来了新的思路与启发。

早在AphaGo2016年与李世石对阵时就表现出不少极具创造力的表现,特别是在第二场比赛中仅用37步就快速胜出——这彻底颠覆了人类几百年来对围棋的理解。李世石在内的众多棋手也开始进行深入研究。在对第37步棋进行评论时,李世石说道“我一直认为AlphaGo属于一种以概率为基础的计算工具,毕竟它终究只是一台机器。但在看到这一步后,我的看法发生了改变。必须承认,AlphaGo确实具有创造力。”

现在的AlphaZero已经更加强大,这为我们的围棋行业教育带来了新思路,我们可以相信未来利用AI帮助孩子们学围棋是很有可能的。

聂道也在研发自己的人工智能,相信不久的将来,聂道的AI也将帮助学生更好的了解围棋,大家敬请期待吧。

---END---

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181210B1DLU800?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券