首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

从深蓝到阿尔法狗,那些战胜人类的软件和人工智能

1966年2月10日,宾夕法尼亚州费城华灯初上,但特拉华河畔的风还透着冬天的凉意‘国际象棋冠军卡斯帕罗夫拉紧了他的高领风衣,与他的助手行走在路边。他的心情有点低落,因为他输了一局棋。

这是他和深蓝对局的第一盘,对方执白先行,最终在37步后战胜了他。在这局之前他虽然表示自己一定会获得胜利,但他内心仍然有些忐忑,而当此刻,第一局就输给计算机之后。他内心深处,他内心深处,虽然出现了一团小小的但是确定和疑惑的担心。夜色渐沉,西方的最后一线余晖缩了下去。卡斯帕罗夫停下脚步,颜色阴沉。

助手似乎害怕着什么一般,也跟着停了下来。恭恭敬敬地站在他身后。助手想着要用什么话来安慰棋王。他深吸一口气说,只不过是一局棋而已,IBM他们一定是作弊了。33岁的卡斯帕罗夫嘴里说出一句话:确实有这种可能,但是;随后棋王扭头看向助手,说;但是,如果深蓝真的和思念不可战胜的,那该怎么办呢?

风呼啸吹来,未等助手回答。年轻的卡斯帕罗夫早已转过身远去。他最终以4:2赢了这场人类尊严的战斗。不过第二年,也就是世人皆知的1997年,卡斯再次遇到挑战时;他最终以2.5:3.5输给了“更深的蓝”。自此,最强的国际象棋手变成了深蓝。不过,让人称道的,天才棋王卡斯帕罗夫自那直到2005年退役之前,一直都保持着世界冠军。

时光飞逝,岁月匆匆距离卡斯帕罗夫第一次对弈深蓝,已经过去了20年。虽然国际象棋这样能够依靠棋谱来计算更多步的软件已经不再新鲜,但是人类依然有一个尊严般的领域,那就是落子变化超过宇宙原子总数的围棋。因为其超大的计算量,人们觉得这是一个软件几乎无法解决的领域;,被称为人类智慧最后的堡垒。

20年过去,IBM的主营业务由软硬件变成了企业咨询和BI辅助决策,信息时代新的接力棒先传给了一个不是那么巨硬的公司。之后又传到了一个由10带100次方非常接近词的公司那边。而这段时间里因特网与智能手机都已经发展起来。2016年3月9日首尔计算机和人类围棋界的对决也终于开始了。事先李世石觉得自己优势很大。Deepmind的斯密斯哈萨比斯表情则淡然而沉着;无数的人在电脑屏幕前面看着直播,在铺天盖地的预测AI完败的弹幕中,李现石和阿尔法狗开始了对局,等到第一局186手时,李投子认输。

事后,它觉得自己布局不够好;第二局第211手,李认输;第三局第176手时,李再次认输。至此人工智能已经赢了,其实第三局败局中盘已定。但是他肩负着人类的尊严,怀着艰难而悲壮的心情下到饿了最后一步。在那局的新闻发布会上,他的发言几近颤抖。但他说今天的失败是李现石个人的失败,不是标致着人类的失败。后来的两局李现石扳回一城,以1:4负于阿尔法狗。

李现石的拼搏让人唏嘘,不过在对弈当时,围棋世界排名第一其实是中国选手柯洁;如果只是赢了前世界冠军李世石,这并不算真正意义上赢过人类。于是,埃尔法狗的团队重新打造了升级版本的,Alphago.master.并在一年零两个月后的中国乌镇对战柯洁。就在2017年的5月23开始。

这个升级版的Alphago.master陆续以3:0的成绩击败了柯洁。成为名副其实的世界第一。Alphago的原理并非基于穷举,而是基于两个神经网络所一起作用作出的决策。神经网络如果简单来看,可以算作是人类对于神经系统的一种模拟。定义好神经元的数量和层级,初始化权重和偏移,并通过训练数据对其进行训练。即观察它的输出和预期结果之间的差异,并改进网络本身的参数等。之后神经网络就可以提高自己在解决问题时的表现。

这很类似人类神经系统能够从不断输入的外界数据和反馈中提高自己的表现,比如学会手握住东西、学会走路、学会说话一样。Alphago采用两个神经网络、一个叫作价值网络,另一个是策略网络。两个网络共同决定了它的决策。而它最初的设计。而它最初的训练数据,则是人类对局中海量的围棋棋谱。Alphago通过学习棋谱到达比较高的水平,之后在进行自我对弈。并用3000万盘自我对弈棋谱来进行训练,就如同一个可以左右互搏的大师,上下数千万局不会疲劳,并最终获得了提升。而人类终其一生也就数千盘棋,是无法望其相背的。不过这件事,并没有走向终点。因为就算是战胜了所有人类选手。

Alphago最早仍然是基于人类对于围棋的理解而训练。也就是说人类其实用之前所积累的智慧给了Alphago关键性的智慧。于是最后的事情终于来了,事情发生在2017年10月19,这天Alphago zero发不了,他融合了价值网络和策略网络。只所以叫zero,因为这是一个从零开始的人工智能。以为它不在需要任何人类棋谱的输入,完完才去自我对弈进行了训练。而且因为算法的优化,它的效率高得惊人。

最早的时候,它就如同一个普通的围棋初学者,比如在3小时的时候几乎是乱下,十几个小时后,他就学会了一些简单的招式。随后就学会了更多的围棋知识。而经过72小时的训练,这个不需要人格化人类棋谱输入的AI,经过大约500万局对局。已经达到饿了击败李现石Alphago的程度,也就是达到了人类最顶级高手的程度。也就是说,人类数千年的围棋知识,人工智能3天已经走过了。40天的训练后,Alphago zero已经可以完全战胜对战柯洁的Alphago master。也就是接近无人望其项背的围棋之神。这个版本的zero对初版的对初版的对局是100:0胜,对柯洁版的比分是89:11胜,令人赞叹不已。

是啊,从1996的卡斯帕洛夫对深蓝第一局的失败;到今天Alphago zero 3天走完人类数千年围棋史。真的是让人不得不感叹人工智能与计算机科学的长足进步。人工智能这一波浪潮冲击到我们这里,有人还在观望。在别人还在观望,有人已经在努力跟上。有人保持各种不同的意见讨论着这样的利弊。不过大家心里都有一种预感,那就是人工智能将是带给未来人类最大变革的事情之一。他预示着未来。不过,从实现的角度来说,做到更强更会思考的人工智能。是需要大量的运算和极高的硬件成本。但NPU神经网络处理芯片的问世对这一问题,进行了突破。因为NPU是专门针对人工智能的运算进行优化的。所以比通常结构的处理器更能处理神经网络相关的工作任务。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190829A08NM100?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券