卡斯帕罗夫自述:从深蓝到 AlphaGo,从狭义 AI 到通用 AI

【新智元导读】柯洁誓死战胜 AlphaGo 的豪言壮语言犹在耳, 20 年前第一个被计算机击败的人类冠军、国际象棋大师卡斯帕罗夫却表示,当年和深蓝相遇,既是他的幸运,也是他的诅咒。而20年后的今天,他丝毫不怀疑,每个职业都终将感受到 AI 带来的压力,否则就意味着人类停止发展,而人类劳动逐渐被人类的发明取代,这本身就是文明的历史。

“我会抱必胜心态、必死信念。我一定要击败阿尔法狗!”对于5月23日至27日在中国乌镇与围棋人工智能程序 AlphaGo (阿尔法狗)的对弈,目前世界排名第一的中国职业九段柯洁放出豪言。

然而,作为 20 年前第一个在传统经典比赛中被计算机击败的人类冠军,国际象棋大师卡斯帕罗夫却在他即将出版的新书中表示,尽管“很少有人经历过他所经历的那种和一台机器针锋相对的战局”,同时“被自动化机器或是被一段看不见的算法挑战、超越甚至取代的感觉,正在成为我们社会的一个标准组成部分,每个职业都终将感受到这一压力”,但他坚定地认为,这是人类发展的必然结果。“人类劳动逐渐被人类的发明取代,正是文明的历史。几个世纪以来不断提高的生活水平和人权的改善都与此有关。”

第一个在传统经典比赛中被计算机击败的人类冠军

卡斯帕罗夫说:“当20 年前计算机在国际象棋领域达到了世界冠军的水平时,正赶上我是国际象棋世界冠军。这是我的幸运,也是我的诅咒。1997年5月11日,我在最终决赛中向 IBM 的深蓝俯首称臣,成为了第一个在传统经典比赛中被计算机击败的人类冠军。”

北京时间 1997 年 5 月 11 日的清晨,一台名为“深蓝”的超级电脑将棋盘上的一个兵走到 C4 位置,人类有史以来最伟大的国际象棋大师卡斯帕罗夫不得不沮丧地承认自己输了。这场举世瞩目的人机大战以计算机取胜而落下帷幕。

“深蓝”重量达1.4吨,有32个节点,每个节点有8块专门为进行国际象棋对弈设计的处理器,平均运算速度为每秒200万步。总计256块处理器集成在IBM研制的RS6000/SP并行计算系统中,从而拥有每秒超过2亿步的惊人速度。它不会疲倦,不会有心理上的起伏,也不会受到对手的干扰。它的缺陷是没有直觉,不能进行真正的思考。但是比赛过程表明,“深蓝”无穷无尽的计算能力在很大程度上弥补了这些缺陷。IBM研制小组向“深蓝”输入了100年来所有国际特级大师开局和残局的下法,自1996年在6局对抗赛中以2∶4败给卡斯帕罗夫之后,“深蓝”的运算速度又提高了一倍,美国特级大师本杰明加盟“深蓝”小组,将他对象棋的理解编成程序教给“深蓝”。比赛结束后,“深蓝”小组公布了一个秘密,每场对局结束后,小组都会根据卡斯帕罗夫的情况相应地修改特定的参数,“深蓝”虽不会思考,但这些工作实际上起到了强迫它学习的“作用”,这也是卡斯帕罗夫始终无法找到一个对付“深蓝”的有效办法的主要原因。

在前五局以2.5对2.5打平的情况下,卡斯帕罗夫在第六盘决胜局中仅走了19步就向“深蓝”拱手称臣。整场比赛进行了不到一个小时。“深蓝”赢得了这场具有特殊意义的对抗。

这一结果在第二局结束时已初见端倪。“深蓝”那一局完美无缺的胜利对卡斯帕罗夫的自信是一个严重的打击。比赛结束后,他的助手看见他坐在房间的角落里,双手捂面。随后的第三、第四、第五局三场和局拖垮了卡斯帕罗夫的斗志,也拖垮了他的体力。据报道,卡斯帕罗夫赛后说,在最后一局时,“我已经无力再战。”

在前五局里,他一直采取专门设计的战略来对付“深蓝”,为了避开与计算力强大的“深蓝”直接角力,他选择了怪异的开局,尽量避免棋子的接触,这种下法让所有的专家们大吃一惊。然而,这并没有取得明显的效果。不管对手使用什么招法,“深蓝”总是默默地,迅速地走出最强的应手。在最后一局中,卡斯帕罗夫显然丧失了耐心,他第一次采取了“正常”的下法。最初的几步棋让观看的棋迷们欢欣鼓舞,以为强大的卡斯帕罗夫恢复了他的本来面目。但很快欢欣就成了沮丧。第七回合,卡斯帕罗夫犯了一个不可挽回的低级错误,局势急转直下,很快卡斯帕罗夫就已毫无希望。在挣扎了几步之后,他放弃了抵抗,草草签了城下之盟。

深蓝的算法核心是暴力穷举

整体而言,深蓝是一套专用于国际象棋的硬件,大部分逻辑是以“象棋芯片”(Chess Chip)的形式用电路实现的。在象棋芯片之上,有较少量的软件负责调度与一些高阶功能。

深蓝算法的核心是基于暴力穷举:生成所有可能的走法,然后执行尽可能深的搜索,并不断对局面进行评估,尝试找出最佳走法。深蓝的象棋芯片包含三个主要的组件:走棋模块(Move Generator),评估模块(Evaluation Function),以及搜索控制器(SearchController)。各个组件的设计都服务于“优化搜索速度”这一目标。

走棋模块负责生成可能的走法。走棋模块的核心是一个8*8的组合逻辑电路阵列,代表棋盘的64个格子。国际象棋的走棋规则以硬件电路的方式嵌入到阵列之中,因此走棋模块可以给出合法的走法。在核心之外还有附加的逻辑电路用于探测和生成特殊走法(例如“吃过路兵”和“王车易位”)。

评估模块是整个芯片中最主体的部分,占据了芯片上2/3的面积、超过半数的逻辑三极管和80%以上的存储三极管。评估模块又分为三个部分:棋子位置评估;残局评估;以及慢速评估。棋子位置评估对盘面上所有棋子当前所处的位置计分,不同棋子处于不同位置的分值由软件预先计算好后写入硬件。芯片中输入了大约8000种不同的“模式”,并针对每种模式赋予了一定的分值。残局评估也预存了一系列专门针对残局的估值规则,例如“王在棋盘中央有利”(Kingcentralization bonus)的规则。残局评估子模块还以8*8组合逻辑电路阵列的形式跟踪所有兵所处的位置,并计算兵是否越过了对方的王、是否能一路冲到对方底线晋级。由于逻辑嵌入在硬件中,棋子位置评估和残局评估都只需要一个时钟周期就可以完成计算。

慢速评估子模块是整个芯片上最复杂的元素,占据芯片上约一半的面积,并且完成计算需要10个时钟周期。大量国际象棋特有的逻辑都在慢速评估的过程中计算,包括:

搜索控制器实现了一个最小窗口alpha-beta搜索算法(minimum-windowalpha-beta search algorithm),也称为alpha-beta剪枝算法,能快速削减搜索的规模。

深蓝的软件也是专门设计用于与硬件协同工作的。软件部分负责调度最多32个象棋芯片并行搜索,并负责对大范围规划的局面进行软件评估。深蓝的软件还连接了“仅剩5子”的残局数据库,一旦出现仅剩5子的残局,就会直接从这个数据库中搜索最佳走法。软件中还包含了从30万局棋中抽取出来的开局书,并且工程师还不断优化其中记录的开局走法。

从深蓝到 AlphaGo,从狭义 AI 到通用 AI

20年前,深蓝与卡斯帕罗夫的对弈使人工智能进入大众视野;20年后,AlphaGo 对李世乭的压倒性胜利再次使人工智能成为热议焦点。同样是战胜了棋类世界冠军,两代人工智能最重要的差别在于:深蓝仍然是专注于国际象棋的、以暴力穷举为基础的特定用途人工智能,而 AlphaGo 是几乎没有特定领域知识的、基于机器学习的、高度通用的人工智能。这一区别决定了深蓝只是一个象征性的里程碑,而 AlphaGo 则更具实用意义。

AlphaGo之父杰米斯·哈萨比斯(Demis Hassabis)近日在母校英国剑桥大学做了一场题为“超越人类认知的极限”的演讲。在演讲中,他说:

IBM 发明的深蓝系统(Deep Blue)是一个很好的狭义人工智能的例子,他在上世纪90年代末期曾打败了国际象棋冠军加里·卡斯帕罗夫(Gary Kasporov) 。如今,我们到了人工智能的新的转折点,我们有着更加先进、更加匹配的技术。

1997年,IBM 的人工智能 DeepBlue(深蓝)打败了当时的象棋世界冠军GarryKasparov,围棋一直是人工智能领域的难解之谜。我们能否做出一个算法来与世界围棋冠军竞争呢?要做到这一点,有两个大的挑战:

一、搜索空间庞大(分支因数就有 200),一个很好的例子,就是在围棋中,平均每一个棋子有两百个可能的位置,而象棋仅仅是 20. 围棋的分支因数远大于象棋。

二、比这个更难的是,几乎没有一个合适的评价函数来定义谁是赢家,赢了多少;这个评价函数对于该系统是至关重要的。而对于象棋来说,写一个评价函数是非常简单的,因为象棋不仅是个相对简单的游戏,而且是实体的,只用数一下双方的棋子,就能轻而易举得出结论了。你也可以通过其他指标来评价象棋,比如棋子移动性等。

所有的这些在围棋里都是不可能的,并不是所有的部分都一样,甚至一个小小部分的变动,会完全变化格局,所以每一个小的棋子都对棋局有着至关重要的影响。最难的部分是,我称象棋为毁灭性的游戏,游戏开始的时候,所有的棋子都在棋盘上了,随着游戏的进行,棋子被对方吃掉,棋子数目不断减少,游戏也变得越来越简单。相反,围棋是个建设性的游戏,开始的时候,棋盘是空的,慢慢的下棋双方把棋盘填满。

因此,如果你准备在中场判断一下当前形势,在象棋里,你只需看现在的棋盘,就能告诉你大致情况;在围棋里,你必须评估未来可能会发生什么,才能评估当前局势,所以相比较而言,围棋难得多。也有很多人试着将 DeepBlue 的技术应用在围棋上,但是结果并不理想,这些技术连一个专业的围棋手都打不赢,更别说世界冠军了。

所以大家就要问了,连电脑操作起来都这么难,人类是怎样解决这个问题的?其实,人类是靠直觉的,而围棋一开始就是一个靠直觉而非计算的游戏。所以,如果你问一个象棋选手,为什么这步这样走,他会告诉你,这样走完之后,下一步和下下一步会怎样走,就可以达到什么样的目的。这样的计划,有时候也许不尽如人意,但是起码选手是有原因的。

然而围棋就不同了,如果你去问世界级的大师,为什么走这一步,他们经常回答你直觉告诉他这么走,这是真的,他们是没法描述其中的原因的。我们通过用加强学习的方式来提高人工神经网络算法,希望能够解决这一问题。我们试图通过深度神经网络模仿人类的这种直觉行为,在这里,需要训练两个神经网络,一种是决策网络,我们从网上下载了成百万的业余围棋游戏,通过监督学习,我们让阿尔法狗模拟人类下围棋的行为;我们从棋盘上任意选择一个落子点,训练系统去预测下一步人类将作出的决定;系统的输入是在那个特殊位置最有可能发生的前五或者前十的位置移动;这样,你只需看那5-10种可能性,而不用分析所有的200种可能性了。

一旦我们有了这个,我们对系统进行几百万次的训练,通过误差加强学习,对于赢了的情况,让系统意识到,下次出现类似的情形时,更有可能做相似的决定。相反,如果系统输了,那么下次再出现类似的情况,就不会选择这种走法。我们建立了自己的游戏数据库,通过百万次的游戏,对系统进行训练,得到第二种神经网络。选择不同的落子点,经过置信区间进行学习,选出能够赢的情况,这个几率介于0-1之间,0是根本不可能赢,1是百分之百赢。

通过把这两个神经网络结合起来(决策网络和价值网络),我们可以大致预估出当前的情况。这两个神经网络树,通过蒙特卡洛算法,把这种本来不能解决的问题,变得可以解决。

AlphaGo 给围棋带来了新方法,它背后主要的方法是Value Networks(价值网络)和 Policy Networks(策略网络),其中Value Networks 评估棋盘位置,Policy Networks 选择下棋步法。这些神经网络模型通过一种新的方法训练,结合人类专家比赛中学到的监督学习,以及在自己和自己下棋(Self-Play)中学到强化学习。这不需要任何前瞻式的 Lookahead Search,神经网络玩围棋游戏的能力,就达到了最先进的蒙特卡洛树搜索算法的级别(这种算法模拟了上千种随机自己和自己下棋的结果)。同时AlphaGo也引入了一种新搜索算法,这种算法将蒙特卡洛模拟和价值、策略网络结合起来。

哀叹给地板打蜡的工作被新技术取代,比抱怨抗生素让墓葬工失业好不了多少

在输掉了和深蓝决赛的 20 年后,当年那个曾和32 台象棋 AI 计算机 进行车轮大战(1985年)并取得了32-0 全胜的意气风发的象棋天才,深沉地写下了如下文字:

我讨厌失败,这不是什么秘密,我也不太会面对失败。然而当时很多人认为这次失败对整个人类都是一次打击,对我来说却没有那么严重。新闻周刊的封面报道把这场比赛称为“人类大脑的最后一道防线”。1997年的那6场比赛为数字时代的“人机大战”蒙上了一层阴影,就像当年 John Henry 和自动气钻机的比赛一样( 根据故事传说,为了工作权利和奴隶尊严,19世纪70年代,美国有一位名叫约 翰.亨利的黑人钢钻工,奋力与自动气钻机竞赛,最后赢得了胜利,可是也把自己给累死了——编者注)。

但我和深蓝则应该是一个完全不同的故事。20年后,我对这一领域有了更充分的了解,深信我们一定不要再把智能机器看成是敌人。尽管具有颠覆性,它们对人类仍然不是威胁而是巨大利好,能够给我们无限的机会,让我们拓展能力,改善生活。

许多计算机领域的早期巨匠梦想过创造一台能够下国际象棋的机器。图灵在1953年发布了第一个国际象棋程序。当时还没有一台计算机能运行它,图灵只能在纸上“运行”他的算法。“纸机器”已经可以像模像样地下一盘棋了。

而机器真正能够挑战人类最好的棋手,这其中所花的时间比早期大多数专家预想的都要长得多。不过在20世纪80年代早期,已经清晰地显现出,越来越快的硬件很快就能胜任这一工作,剩下的只是时间问题了。人们发现,计算机不必模仿人类的思维,像国际象棋大师那样下棋。

深蓝和我的思考方式就不同。基本要素是相似的——都是记忆、评估和计算的结合。但象棋大师运用经验,专注于思考最相关的因素,机器却把所有可能的走法都思考一遍,每一步都计算得更深。

从1985年到2005年,我处在国际象棋世界的巅峰, 机器则从菜鸟进步成为世界冠军的水平。这样的进步当然会让人感到吃惊、不安,甚至觉得受到了威胁。

今天,随着智能机器在一个又一个领域取得了长足进步,许多人也产生了同样的情绪。当然,很少有人会经历我所经历的那种与机器针锋相对、充满戏剧性的比赛,但这种被自动化机器或是被一段看不见的算法挑战、超越甚至取代的感觉,正在成为我们社会的一个标准组成部分。

基于痛苦的个人经历,我认为我们应对这一问题的参照标准就有问题,我们越是急于寻找乐观的情绪,就越会产生负面的影响。“人机大战”这一说法在工业革命时就开始被广泛使用,彼时蒸汽引擎和机械自动化开始在农业和工业中大规模出现。故事在20世纪 60 年代和 70 年代的机器人革命期间蒙上了一层更加不祥的色彩,当时更精确和智能的机器开始侵占制造业的工作机会。接下来是信息革命,又从服务和第三产业中抢走了数以百万计的工作。

现在我们来到了故事的下一章,机器已经开始“威胁”把机器作为阅读和写作对象的阶层。我们每天都看到头条新闻上说,机器如何如何冲着律师、银行家、医生和其他白领专业人士来了。没错,是来了。 但这是个好消息。

每个职业都终将感受到这一压力,否则就意味着人类停止发展。哀叹给地板打蜡的工作被新技术取代,这比抱怨抗生素让墓葬工失业好不了多少。人类劳动逐渐被人类的发明取代,这正是文明的历史。几个世纪以来不断提高的生活水平和人权的改善都与此有关。

想想吧,坐在温度受控的房间中,口袋里装着能获取人类知识总和的设备,感叹着不用再用双手劳作了,这是怎样的奢侈!世界上还有很多地方,人们一整天都在用手工作,也没有干净的水和现代医药。他们真的在因为技术匮乏而死亡。

没有回头路,只有前进。当技术停滞不前时,我们会丧失选择权。那些工作在自动化革新前进道路上的人们害怕目前的技术浪潮将使他们陷入困境,但是他们更依赖下一波新技术产生的经济增长来创造可持续的新工作,这是新工作岗位诞生的唯一途径。

我理解,让数百万新冗员“接受信息时代的重新培训”,这说来轻巧,但一旦成为他们中的一员,必然很艰难。况且,谁能说出哪天这些新培训也会变得毫无价值?今天还有什么职业能算是“防计算机”的?

今天的许多工作在20年前甚至不存在,这种趋势将会持续加速。移动应用程序设计师,3D打印工程师,无人飞机飞手,社交媒体经理,基因咨询师,这些只是近几年出现的一小部分职业。专家总是抢手的,越来越多的智能机器在不断降低新技术创新的门槛。

看看一个孩子几分钟内可以用 iPad 做什么,再看看十年前使用 PC 完成同样任务所需的时间和知识。数字工具的进步意味着对那些被机器抢走工作的人来说,培训和再培训的时间都变少了。这是一个良性循环,让我们能从日常工作中抽身而出,并赋予我们高效、创造性地使用新技术的能力。

机器取代了体力劳动,使我们更加专注于让我们称其为人的东西:我们的思想。智能机器将继续这一历程,在认知方面承担更多低层次的工作,将我们的精神生活推向创造力、好奇心、审美和快乐。 正是这些让人类真正为人,而不是任何特定的活动或技能,比如挥动锤子,甚至包括下棋。

(卡斯帕罗夫目前担任 the Human Right Foundation 的主席,也是 the Oxford Martin School的高级访问学者。 文中所引用的卡斯帕罗夫的自述,改编自其新书“Deep Thinking: Where Artificial Intelligence Ends and Human Creativity Begins”,该书将于5月2日由PublicAffairs出版)

参考文章:

Garry Kasparov:https://www.wsj.com/articles/learning-to-love-intelligent-machines-1492174086

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2017-04-17

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏顶级程序员

AlphaGo之父:关于围棋,人类3000年来犯了一个错

转自澎湃新闻 “我会抱必胜心态、必死信念。我一定要击败阿尔法狗!” 对于5月23日至27日与围棋人工智能程序AlphaGo(阿尔法狗)的对弈,目前世界排名第一...

3757
来自专栏CDA数据分析师

人类,不要气馁 | 从李世石连败谷歌人工智能看中国制造2025

编者按:今天李世石同学又输了,感觉这个曾经的“不败少年”即将成为让广大网友集体心疼的第二个小李子。那个小李子已经拿着奥斯卡逆袭成功了,这个小李子前方的道路依然曲...

2358
来自专栏新智元

【柯洁战败解密】AlphaGo Master最新架构和算法,谷歌云与TPU拆解

【新智元发自中国乌镇】乌镇人工智能峰会进入第二天,哈萨比斯、David Silver和Jeff Dean等谷歌高管纷纷发表演讲。他们对AlphaGo 2.0的新...

3805
来自专栏新智元

40张图看懂扑克AI对抗人类30年历史,解密冷扑大师前世今生

【新智元导读】2017年是AI在扑克上取得突破的一年,冷扑大师Libratus和DeepStack 相继完胜人类,实现对人类专业级玩家的超越,毫无疑问是里程碑式...

3058
来自专栏镁客网

人工智能里程碑,谷歌AlphaGo击败围棋冠军!

2443
来自专栏申龙斌的程序人生

AlphaGo挑战李世石,我的点格棋程序挑战孩子

不知道从什么时候开始,我开始对各种智力游戏非常感兴趣。记得上小学的时候,有一次到同学家玩,第一次看见魔方,转了2个小时没停手,由于要回家吃饭,所以才恋恋不舍地放...

3216
来自专栏新智元

DeepMind创始人:AlphaGo破解围棋3000年奥义,超越人类认知极限

【新智元导读】AlphaGo之父杰米斯·哈萨比斯(Demis Hassabis)近日在母校英国剑桥大学做了一场题为“超越人类认知的极限”的演讲,解答了世人对于人...

3724
来自专栏量子位

新AlphaGo首度揭秘:单机运行,4个TPU,算法更强(专访+演讲)

舒石 唐旭 发自 东瑶村 量子位 报道 | 公众号 QbitAI ? 到底是谁击败了柯洁? 答案似乎显而易见。但量子位之所以问这个问题,是因为如今击败柯洁的Al...

37713
来自专栏PPV课数据科学社区

人工智能领域里程碑:AlphaGo战胜围棋9段选手

? 3月9日消息,代表人类出战的李世石九段与谷歌DeepMind人工智能程序“阿尔法围棋”之间历史性的人机大战3月9日在首尔四季酒店拉开序幕。首局谷歌...

39012
来自专栏新智元

Let’s Go : 围棋的诱惑与智力的边界

所谓的“人机世纪大战”,谷歌的AlphaGo与南韩李世石的对决即将上演,这不但让我想起差不多20年前IBM“深蓝”与卡斯帕罗夫的国际象棋比赛,也被许多人称为是“...

2946

扫码关注云+社区

领取腾讯云代金券