首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

AlphaZero达成终极进化体,史上最强棋类AI降临!

速速点击报名

史上最强棋类AI降临!

12月7日,谷歌旗下的人工智能实验室DeepMind研究团队在《科学》杂志上发表封面论文,公布了通用算法AlphaZero及其测试数据。《科学》杂志评论称,通过单一算法解决多个复杂问题,是创建计算机通用学习系统、解决实际问题的重要一步。该论文的作者包括AlphaGo的核心研发人员戴维·席尔瓦(David Silver)和DeepMind创始人戴密斯·哈萨比斯(Demis Hassabis)等。

论文描述了AlphaZero如何快速学习棋类对弈,如何从随机对弈开始训练,在没有预设数据、只知道基本规则的情况下,成为史上最强大的棋类AI的过程。

《科学》杂志评价称,能够解决多个复杂问题的单一算法,是创建计算机通用学习系统,解决实际问题的重要一步。

DeepMind说,现在AlphaZero已经学会了三种不同的复杂棋类游戏,并且可能学会任何一种规则完善的博弈游戏,这让我们对创建通用学习系统的使命充满信心。

AlphaZero到底有多厉害?再总结一下。

在国际象棋中,AlphaZero训练4小时就超越了世界冠军程序Stockfish;

在日本将棋中,AlphaZero训练2小时就超越了世界冠军程序Elmo;

在围棋中,AlphaZero训练30小时就超越了与李世石对战的AlphaGo。

我们通过一个视频更好的了解一下AlphaZero

(建议在WiFi环境下观看)

AlphaZero有何不同?

计算机科学家很早就开始研究国际象棋领域。1997年,深蓝击败了人类国际象棋冠军卡斯帕罗夫,这是人工智能的一个里程碑。此后20年,国际象棋算法在超越人类棋手后仍处于不断进步的过程中。

这些算法都出自强大的人类棋手与程序员,基于精心调整的权重来评估局面,并加以高性能的alpha-beta检索。那么AlphaZero同其他棋类AI究竟有何不同呢?

AlphaZero下棋时搜索的局面更少,靠的是让神经网络的选择更集中在最为有利的选择上。DeepMind在论文中举了个例子加以解释。

上图展示的是在AlphaZero执白、Stockfish执黑的一场国际象棋对弈中,经过100次、1000次……直到100万次模拟之后,AlphaZero蒙特卡洛树的内部状态。每个树状图解都展示了10个最常访问的状态。

AlphaZero的系统经过全面训练后就开始同各个棋类领域里最强的AI进行了比较:国际象棋的Stockfish,将棋的Elmo,以及围棋的AlphaGo Zero。

每个AI都以其最初设计中的硬件来进行加载:

Stockfish和Elmo都配备了44个CPU核;AlphaZero和AlphaGo Zero用的则是一台搭载4枚初代TPU和44个CPU核的计算机。

(一枚初代TPU的运算速度,大约相当于一个英伟达Titan V GPU。)

另外,每场比赛的时长控制在3小时以内,每一步棋不得超过15秒。

比赛结果是,无论国际象棋、将棋还是围棋,AlphaGo都击败了对手:

国际象棋,大比分击败2016 TCEC冠军Stockfish,千场只输155场。

将棋,大比分击败2017 CSA世界冠军Elmo,胜率91.2%。

围棋,击败自学成才的前辈AlphaGo Zero,胜率61%。

不按套路落子

AlphaZero自己学习了每种棋类,因此它并不受人类现有套路的影响,形成了独特的、非传统的,但又极具创造力的棋路。

它还形成了自己对国际象棋的“直觉”和策略,产生了一系列令人兴奋的新想法,改变了几个世纪以来人们对于国际象棋战略的思考。

国际象棋世界冠军卡斯帕罗夫也在《科学》上撰文表示,AlphaZero充满活力、开放的风格就同他本人一样。他指出通常国际象棋程序会以和棋为最终目标,但AlphaZero看起来更喜欢冒险、更具侵略性,AlphaZero的棋风可能同他最为接近。此外卡斯帕罗夫也表示,AlphaZero以一种深刻而意义非凡的方式超越了人类棋手。

国际象棋特级大师马修·萨德勒(Matthew Sadler)和女子国际大师娜塔莎·里根(Natasha Regan)将于2019年1月出版新书《棋类变革者(Game Changer)》,在这本书中,他们分析了数以千计的AlphaZero棋谱,认为AlphaZero的棋路不同于任何传统的国际象棋引擎,马修·萨德勒对它的评价则是“就像是在翻阅以往顶尖棋手的秘籍。”

与直觉相反,AlphaZero似乎对“子力”的重视程度较低,这一想法是现代对弈的基础,每一个棋子都具有价值,如果玩家在棋盘上的某个棋子价值高于另一个,那么它就具有子力优势。AlphaZero愿意在对弈开局阶段牺牲子力,以占据长远优势。

传统引擎非常强大,几乎不会出现明显错误,但在面对无特定可计算解决方案的局面时会产生失误,正是在这样的局面下,AlphaZero才能体现出自己“直觉”优势。

AlphaZero的启发意义,早在2016年AlphaGo对战李世石时就能看出。在比赛期间,AlphaGo展现出了许多极具创造性的走法,包括在第二场比赛中的37手,这一手推翻了人类棋手过往数百年的思维模式。李世石对AlphaGo在那场对决中的第37手是这样评价的:“我曾认为AlphaGo是基于概率计算的,它只是一台机器。但当我看到这一手时,我改变了想法,AlphaGo是有创造力的。“

不仅仅是棋手

DeepMind在博客中说AlphaZero不仅仅适用于国际象棋、将棋或是围棋领域。它是为了创建能够解决各种现实问题的智能系统。这正是AI研究中的一项重大挑战:AI系统能够以非常高的标准掌握特定技能,但往往也只能掌握那一特定技能。AlphaZero现在能够掌握三种不同的复杂棋类游戏,并可能掌握任何规则完善的棋类对决,解决了上述问题中重要的一步。

AlphaZero论文

这篇刊载在《科学》上的论文,题为:

A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play

作者包括:David Silver、Thomas Hubert、Julian Schrittwieser、Ioannis Antonoglou、Matthew Lai、Arthur Guez、Marc Lanctot、Laurent Sifre、Dharshan Kumaran、Thore Graepel、Timothy Lillicrap、Karen Simonyan、Demis Hassabis。

《科学》刊载的论文在此:

http://science.sciencemag.org/content/362/6419/1140

棋局可以在此下载:

https://deepmind.com/research/alphago/alphazero-resources/

DeepMind还特别写了一个博客:

https://deepmind.com/blog/alphazero-shedding-new-light-grand-games-chess-shogi-and-go/

文章内容主要来源于关注前沿科技及网络

由超玥俱乐部综合整理

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181211A129FQ00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券