AlphaZero:通用型的棋类人工智能程序

今年,Deepmind的“AlphaGo”在围棋领域的胜利让不少人了解到人工智能的强大。当时有人还认为没有人类棋手的经验,人工智能很难快速达到如今的成绩,但后来推出的AlphaGo Zero却是从0开始,自己学习围棋,又取得超越AlphaGo的成绩。如今Deepmind再次将这种强大的算法泛化,提出了AlphaZero:一种可以从零开始,在多种不同的任务中通过自我对弈,达到超越人类水平的新算法。这种算法可以通过24小时的对弈训练后,就可以在日本将棋和国际象棋领域击败目前业内顶尖的计算机程序(这些程序早就战胜了人类棋手)。以下是AlphaZero取得的成绩:

8小时自我训练战胜李世石版本AlphaGo;12小时自我训练战胜世界顶级国际象棋程序Stockfish;14小时自我训练战胜世界顶级将棋程序Elmo。

国际象棋算法的历史和计算机一样古老,虽然很多计算机大师在很久以前就开始了国际象棋算法的开发,但众所周知,国际象棋算法仍然花费了很久才战胜了人类。国际象棋算法存在一个问题,就是它只能在国际象棋领域起作用,如果不经过大幅改造,这个算法是完全不能在其他领域其作用,而大幅改造又失去了利用这一算法的意义。

创造一个规则简单但能在不同领域应用的算法一直是人工智能领域的重要课题。AlphaGo Zero就是一种使用卷积神经网的算法,它可以只通过强化学习进行自我对弈训练,也就是只通过输入围棋规则就能达到超越人类的水平。而新开发的AlphaZero则是能在其他领域获得同样的成绩,在没有输入除了规则以外的任何信息的情况下,AlphaZero仍然可以通过自我学习取得战胜人类顶尖选手的成绩。

1997年“深蓝”击败人类世界冠军卡斯帕罗夫,从那以后计算机程序的国际象棋水平一直在人类之上。这些程序必须得按照人类大师仔细调整的权重来计算落子的优劣。在日本将棋领域,计算机程序的进展就更为缓慢了,日本将棋棋盘更大,而且被吃掉的棋子可以改变阵营,重新上场,还能被放置在大部分位置上。正是因为这些原因,知道2017年计算机程序才在日本将棋领域战胜人类冠军。而围棋的规则是相对比较简单的,适合AlphaGo中的神经网络体系结构。

这三种棋有着很大的区别,从基础构架来说并不兼容,如果让AlphaGo去学习日本将棋和国际象棋是很困难的。但是AlphaZero却不但能完胜其他程序,还能用更少的计算量实现胜利。(王蔚)

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20171226A03G5J00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券