首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

在它面前,最顶尖的人类也弱爆了!现实版《黑镜》或许正在发生

2016年,人工智能程序「阿尔法围棋」(AlphaGo)击败世界围棋冠军李世石。

那次比赛,一下子让人工智能成为人类最关心的话题之一——

人工智能的运作机制是什么?

阿尔法围棋是如何打败李世石的?

对人工智能的发展来说,阿尔法围棋的这次胜利究竟意味着什么?

今天,甜叔跟大家聊一部纪录片,从这部片里,你可以找到上述问题的答案——

《阿尔法围棋》

提到阿尔法围棋,首先得说说这个程序的幕后研发团队——

谷歌旗下的深度思维公司(DeepMind)。

该团队成员将深度思维比作人工智能领域的阿波罗计划。

团队的任务是彻底了解智能,通过人工方法重新创造,从而利用这些科技造福社会。

而各类游戏,就是这个团队了解智能、开发与测试人工智能算法的重要平台。

因为,很多游戏都有记分机制,通过游戏,可以很容易地对算法取得的渐进式进步进行测量。

在一款游戏中,人工智能是如何学习、如何进步的呢?

以我们人人都熟悉的打砖块游戏为例——

跟人类一样,第一次接触这款游戏,智能系统也得从零学起。

它不知道自己在控制什么,甚至连游戏的目标都不知道。

根据游戏中的原始像素,智能系统可以进行判断,自行学习其中的操作方式。

在最开始的100场游戏中,智能系统多半都接不到球。

不过,它逐渐开始掌握游戏的窍门,发现应该让短棍更靠近球。

经过300场游戏,智能系统几乎每次都能接到球。

深度思维团队又继续让系统玩了200次,结果,令人非常惊讶。

它发现了玩这款游戏的最佳策略——

沿墙壁边缘挖隧道,让球穿过隧道,在砖块和墙壁之间来回弹跳。

这招,连负责研究此次计划的研究员都没发现,智能系统使他们学到了新知识。

在打砖块游戏之后,深度思维将目光瞄准了围棋。

打败职业围棋选手,长久以来,一直是人工智能研究的一大挑战。

我们先了解一下围棋的游戏规则——

玩家的目标是把棋子连接起来,制造一个彼此相连的群体,包围某个空地。

当玩家包围敌方的棋子后,就能将那些棋子从棋盘上移走。

玩家包围的领土,用目数来计算。

到最后,谁包围的目数最多,谁就是整场游戏的赢家。

这些规则看似简单,实际上,围棋是人类有史以来发明过的最复杂的游戏——

每颗棋子可以走的路径选择,大约有200种。

棋局可能的变化数目,比全宇宙的原子总数还多。

即使出动全世界的电脑运作一百万年,也不可能计算出所有可能的变化情形。

研发人员尝试将人工智能应用到各个领域,但每次碰到围棋都以失败收场。

一定意义上,围棋是人工智能领域的终极目标。

很多人认为人工智能要在围棋比赛中战胜人类,还需要上千年,有些人则觉得不可能。

因为,他们认为,要在围棋中获胜,需要凭借人类的直觉。

围棋高手下棋,很多时候,只是因为感觉是对的。

这种观点,让深度思维团队深受启发。

他们意识到,通过仿效人类直觉,或许,能发明出某种让人工智能取胜的高明算法。

阿尔法围棋的核心科技,被称为“深度神经网络”,意即模拟人类大脑的神经元网络。

这个概念已经存在很久了。

但直到最近,随着电脑运算能力提升,这些神经网络,一夕之间变得非常强大。

和打砖块游戏一样,阿尔法围棋也是通过自学,来掌握围棋游戏的技巧的。

团队从网络上下载了十万部厉害业余棋手比赛的影片,让阿尔法围棋「观看」。

一开始,他们让阿尔法围棋模仿人类棋手的招数。

之后,借由跟自己下棋与强化学习,挑战数百万次不同棋局,阿尔法围棋取得了长足进步。

接下来,要进行实战了。

首先应邀而来的,是职业围棋选手樊麾。

樊麾是职业二段选手,曾拿过2013到2015年的欧洲围棋冠军。

五局比赛,樊麾全败。

这是历史性的一刻,人工智能系统有史以来第一次打败职业围棋选手。

不久后,深度思维向世界围棋冠军李世石下了挑战书。

李世石属于九段选手,曾获得过18次世界冠军。

他被认为是过去十年来最伟大的棋手,樊麾跟他完全不是一个等级的。

正式应战前,阿尔法围棋进行了两次测试赛。

一胜,一败。

为了改善这种局面,深度思维请樊麾来给团队担任顾问。

樊麾不断与阿尔法围棋下棋,发现了这个程序的一个大漏洞。

什么漏洞呢?

我们可以想象有个空间,装满了阿尔法围棋知道的所有东西。

对这些东西,它大多都了如指掌。

但,有些比较困难的知识区块,阿尔法围棋几乎一窍不通。

在短暂的时间内,研发团队很难归纳出程序何时会碰到这些区块。

而一旦碰上,它可能就会发生错乱。

它会把棋盘上的活棋当成死棋,或是把死棋当成活棋。

深度思维进行了紧张的修改工作,但并没有取得太大进展。

阿尔法围棋就这样带着漏洞走上了战场。

关于这次比赛的结果,我们已经知道了。

李世石以1:4的比分,输给了阿尔法围棋。

所以,悬念已经不重要了,重要的是阿尔法围棋在这次比赛中令人始料未及的一些表现。

它在游戏中所努力的方向、它对胜败的理解,与我们人类完全不同。

以前,人们玩围棋,通常只考虑怎样才能赢得更多的目数。

阿尔法围棋不考虑这个。

在这个人工智能系统中,一共包含了三种机制——

一是走棋网络:借助从高阶棋局中获得的训练,模仿人类棋手的招式。

二是估值网络:衡量棋局情势,判断获胜几率。

三是树搜寻:分析棋局的各种可能变化情形,尝试推演棋局未来演变。

在实际对战中,走棋网络扫描棋子摆放情况,选出可行落点。

接着,树搜寻根据每个落点可能产生的变化,建构出树状图。

最后,运用估值网络,分析每一种方法获胜的几率。

在整个比赛中,阿尔法围棋一直致力于把胜率提高到最大,但并不在乎所赢目数的多少。

它的很多棋步,在人类职业棋手看来是错误的,或者是多余的。

分明有其它更好的走法,阿尔法围棋却不采用。

这都是因为,以它的逻辑,赢才是目的,赢多赢少完全无关紧要。

对于人类棋手来说,这意味着一种崭新的思维方式。

它的出现,或许会影响接下来一千年人类下围棋的方式。

除此之外,阿尔法围棋还能走出一些让人类觉得是创新的棋步。

最被人称道的是第二局的第37步棋,按照计算,人类只有万分之一的几率会走这样一步。

阿尔法围棋走出这一步,证明它已超越了人类的指导。

这一步,让李世石思考了12分钟。

而局势也彻底转向了。

之前的每个落子全部起了作用,连接了起来。

这一局结束后,李世石称,他在这一局明显处于劣势,从比赛一开始,没有一刻掌握主动权。

或许是受到了阿尔法围棋的启发,在连败三局之后,李世石也走出了一个创新棋步。

根据计算,人类走出这步的概率同样不足万分之一。

正是因为这步,阿尔法围棋暴露了它的弱点。

它接连犯错,棋步变得非常异常,胜率评估值不断下降,最后,举手投降。

对于这一情况,场外的一名评论员并不感到意外。

他说,如果深度思维有办法写出没有错误的程序码,那会是比阿尔法围棋更大的新闻。

实际上,尽管在本次比赛中取得了这么大的胜利,人工智能依旧还处在萌芽阶段。

距离它正真应用到我们的生活中,给人类生活方式带来巨大改变,也许还要等上不短的时间。

不过,正如阿尔法围棋给围棋界带来的那些启发,已震撼到很多人,我们也应该试着改变一下传统的思维方式。

放下人类的傲慢,像人工智能一样思考,或许,我们会看到一个不一样的世界。

文 | 甜叔

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180118A0DQQ000?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券