2016年,人工智能程序「阿尔法围棋」(AlphaGo)击败世界围棋冠军李世石。
那次比赛,一下子让人工智能成为人类最关心的话题之一——
人工智能的运作机制是什么?
阿尔法围棋是如何打败李世石的?
对人工智能的发展来说,阿尔法围棋的这次胜利究竟意味着什么?
今天,小编跟大家聊一部纪录片,从这部片里,你可以找到上述问题的答案——
《阿尔法围棋》
提到阿尔法围棋,首先得说说这个程序的幕后研发团队——
谷歌旗下的深度思维公司(DeepMind)。
该团队成员将深度思维比作人工智能领域的阿波罗计划。
团队的任务是彻底了解智能,通过人工方法重新创造,从而利用这些科技造福社会。
而各类游戏,就是这个团队了解智能、开发与测试人工智能算法的重要平台。
因为,很多游戏都有记分机制,通过游戏,可以很容易地对算法取得的渐进式进步进行测量。
在一款游戏中,人工智能是如何学习、如何进步的呢?
以我们人人都熟悉的打砖块游戏为例——
跟人类一样,第一次接触这款游戏,智能系统也得从零学起。
它不知道自己在控制什么,甚至连游戏的目标都不知道。
根据游戏中的原始像素,智能系统可以进行判断,自行学习其中的操作方式。
在最开始的100场游戏中,智能系统多半都接不到球。
不过,它逐渐开始掌握游戏的窍门,发现应该让短棍更靠近球。
经过300场游戏,智能系统几乎每次都能接到球。
深度思维团队又继续让系统玩了200次,结果,令人非常惊讶。
它发现了玩这款游戏的最佳策略——
沿墙壁边缘挖隧道,让球穿过隧道,在砖块和墙壁之间来回弹跳。
这招,连负责研究此次计划的研究员都没发现,智能系统使他们学到了新知识。
在打砖块游戏之后,深度思维将目光瞄准了围棋。
打败职业围棋选手,长久以来,一直是人工智能研究的一大挑战。
我们先了解一下围棋的游戏规则——
玩家的目标是把棋子连接起来,制造一个彼此相连的群体,包围某个空地。
当玩家包围敌方的棋子后,就能将那些棋子从棋盘上移走。
玩家包围的领土,用目数来计算。
到最后,谁包围的目数最多,谁就是整场游戏的赢家。
这些规则看似简单,实际上,围棋是人类有史以来发明过的最复杂的游戏——
每颗棋子可以走的路径选择,大约有200种。
棋局可能的变化数目,比全宇宙的原子总数还多。
即使出动全世界的电脑运作一百万年,也不可能计算出所有可能的变化情形。
研发人员尝试将人工智能应用到各个领域,但每次碰到围棋都以失败收场。
一定意义上,围棋是人工智能领域的终极目标。
很多人认为人工智能要在围棋比赛中战胜人类,还需要上千年,有些人则觉得不可能。
因为,他们认为,要在围棋中获胜,需要凭借人类的直觉。
围棋高手下棋,很多时候,只是因为感觉是对的。
这种观点,让深度思维团队深受启发。
他们意识到,通过仿效人类直觉,或许,能发明出某种让人工智能取胜的高明算法。
阿尔法围棋的核心科技,被称为“深度神经网络”,意即模拟人类大脑的神经元网络。
这个概念已经存在很久了。
但直到最近,随着电脑运算能力提升,这些神经网络,一夕之间变得非常强大。
和打砖块游戏一样,阿尔法围棋也是通过自学,来掌握围棋游戏的技巧的。
团队从网络上下载了十万部厉害业余棋手比赛的影片,让阿尔法围棋「观看」。
一开始,他们让阿尔法围棋模仿人类棋手的招数。
之后,借由跟自己下棋与强化学习,挑战数百万次不同棋局,阿尔法围棋取得了长足进步。
接下来,要进行实战了。
首先应邀而来的,是职业围棋选手樊麾。
樊麾是职业二段选手,曾拿过2013到2015年的欧洲围棋冠军。
五局比赛,樊麾全败。
这是历史性的一刻,人工智能系统有史以来第一次打败职业围棋选手。
不久后,深度思维向世界围棋冠军李世石下了挑战书。
李世石属于九段选手,曾获得过18次世界冠军。
他被认为是过去十年来最伟大的棋手,樊麾跟他完全不是一个等级的。
正式应战前,阿尔法围棋进行了两次测试赛。
一胜,一败。
为了改善这种局面,深度思维请樊麾来给团队担任顾问。
樊麾不断与阿尔法围棋下棋,发现了这个程序的一个大漏洞。
什么漏洞呢?
我们可以想象有个空间,装满了阿尔法围棋知道的所有东西。
对这些东西,它大多都了如指掌。
但,有些比较困难的知识区块,阿尔法围棋几乎一窍不通。
在短暂的时间内,研发团队很难归纳出程序何时会碰到这些区块。
而一旦碰上,它可能就会发生错乱。
它会把棋盘上的活棋当成死棋,或是把死棋当成活棋。
深度思维进行了紧张的修改工作,但并没有取得太大进展。
阿尔法围棋就这样带着漏洞走上了战场。
关于这次比赛的结果,我们已经知道了。
李世石以1:4的比分,输给了阿尔法围棋。
所以,悬念已经不重要了,重要的是阿尔法围棋在这次比赛中令人始料未及的一些表现。
它在游戏中所努力的方向、它对胜败的理解,与我们人类完全不同。
以前,人们玩围棋,通常只考虑怎样才能赢得更多的目数。
阿尔法围棋不考虑这个。
在这个人工智能系统中,一共包含了三种机制——
一是走棋网络:借助从高阶棋局中获得的训练,模仿人类棋手的招式。
二是估值网络:衡量棋局情势,判断获胜几率。
三是树搜寻:分析棋局的各种可能变化情形,尝试推演棋局未来演变。
在实际对战中,走棋网络扫描棋子摆放情况,选出可行落点。
接着,树搜寻根据每个落点可能产生的变化,建构出树状图。
最后,运用估值网络,分析每一种方法获胜的几率。
在整个比赛中,阿尔法围棋一直致力于把胜率提高到最大,但并不在乎所赢目数的多少。
它的很多棋步,在人类职业棋手看来是错误的,或者是多余的。
分明有其它更好的走法,阿尔法围棋却不采用。
这都是因为,以它的逻辑,赢才是目的,赢多赢少完全无关紧要。
对于人类棋手来说,这意味着一种崭新的思维方式。
它的出现,或许会影响接下来一千年人类下围棋的方式。
除此之外,阿尔法围棋还能走出一些让人类觉得是创新的棋步。
最被人称道的是第二局的第37步棋,按照计算,人类只有万分之一的几率会走这样一步。
阿尔法围棋走出这一步,证明它已超越了人类的指导。
这一步,让李世石思考了12分钟。
而局势也彻底转向了。
之前的每个落子全部起了作用,连接了起来。
这一局结束后,李世石称,他在这一局明显处于劣势,从比赛一开始,没有一刻掌握主动权。
或许是受到了阿尔法围棋的启发,在连败三局之后,李世石也走出了一个创新棋步。
根据计算,人类走出这步的概率同样不足万分之一。
正是因为这步,阿尔法围棋暴露了它的弱点。
它接连犯错,棋步变得非常异常,胜率评估值不断下降,最后,举手投降。
对于这一情况,场外的一名评论员并不感到意外。
他说,如果深度思维有办法写出没有错误的程序码,那会是比阿尔法围棋更大的新闻。
实际上,尽管在本次比赛中取得了这么大的胜利,人工智能依旧还处在萌芽阶段。
距离它正真应用到我们的生活中,给人类生活方式带来巨大改变,也许还要等上不短的时间。
不过,正如阿尔法围棋给围棋界带来的那些启发,已震撼到很多人,我们也应该试着改变一下传统的思维方式。
放下人类的傲慢,像人工智能一样思考,或许,我们会看到一个不一样的世界。
「 关注剧角 」
搜索 剧角映画 或 magilm_forever
关于电影,你总想知道更多
领取专属 10元无门槛券
私享最新 技术干货