【导读】11月10日,黄士杰应中国台湾人工智能年会之邀来台演讲,演讲主题是「AlphaGo——深度学习与强化学习的胜利」,也是他首次公开演讲。不久前,在DeepMind发表了《Mastering the game of Go without humanknowledge》的最新论文后,黄士杰曾在Facebook写下:AlphaGo Zero是完全脱离人类知识的AlphaGo版本。在演讲上,他强调,DeepMind的目标是要做出一个通用人工智能,也就是强人工智能,但他也认为,对DeepMind来说,强人工智能还是很遥远,现在最强的学习技能仍然在人类大脑内,有人说强人工智能要到2045年,有人说至少还要100年,黄世杰的回答是:大家不要太担心,电影还是电影。
黄士杰:Research Scientist / Google DeepMind
AlphaGo首席工程师。毕业于国立中国台湾师范大学信息工程研究所,现在是Google DeepMind的资深研究员。
2016年,Google旗下DeepMind公司开发的AlphaGo击败了韩国职业九段棋士李世石。
今年5月,AlphaGo以三战全胜的纪录赢了名列世界第一的棋王柯洁。隔了五个月后,DeepMind公布了AlphaGo Zero,它再度让人类感到震撼。
「我没有想过一个名词能获得所有人的认同,从政治人物、科学家、企业家、到学生甚至是小孩,都觉得这件事明天会发生,这场完美风暴的引爆点是AlphaGo,黄士杰可能自己都没想过,他那只帮机器下棋的手,改变这个世界:让大家相信或者忧虑机器会超越人类」,Google中国台湾董事总经理简立峰说。
人工智能,是简立峰口中的完美风暴,AlphaGo则是这一波AI风潮的最佳代言人,那么,黄士杰呢?
相信DeepTech的读者们已经对这个名字并不陌生,他是DeepMind资深研究员,是与人类顶尖棋手对弈时代AlphaGo执棋的「人肉臂」,更重要的是,他还是开发这个神秘大脑的关键人物之一。
11月10日,黄士杰应中国台湾人工智能年会之邀来台演讲,演讲主题是「AlphaGo——深度学习与强化学习的胜利」,也是他首次公开演讲。
不久前,在DeepMind发表了《Mastering the game of Go without humanknowledge》的最新论文后,黄士杰曾在Facebook写下:AlphaGo Zero是完全脱离人类知识的AlphaGo版本。这也就是取名为AlphaGo Zero的原因——AlphaGo从零开始。
在今天的演讲上,他强调,DeepMind的目标是要做出一个通用人工智能,也就是强人工智能,但他也认为,对DeepMind来说,强人工智能还是很遥远,现在最强的学习技能仍然在人类大脑内,有人说强人工智能要到2045年,有人说至少还要100年,黄世杰的回答是:「大家不要太担心,电影还是电影。」
从DeepMind为什么开始做围棋一直到最新的AlphaGo Zero,见证了这一切的他称「这几年好像在做梦」。
以下为演讲内容整理(原文略有删改):
AlphaGo-深度学习与强化学习的胜利
▌人因梦想而伟大
【人因梦想而伟大】,是我加入(DeepMind)五年之后最大的体会,这段经历对我个人最大的影响就是整个人对AI的认识不断加深。
DeepMind团队卧虎藏龙,精神非常强,当AlphaGo结束时,我的老板过来跟我说:【Aja(黄士杰英文名),AlphaGo已经完成所有一切我们希望它该完成的任务,所以我们要再往前迈进】。这群高手都有一个清楚的远大目标,就是做出通用人工智能——解决A I,把世界变得更好。
我从小就喜欢下棋,棋艺业余六段,再往上就是职业等级。回顾加入DeepMind这五年及AlphaGo的发展历史,有四件事对我意义非常大,第一件是在韩国赢了李世石,那天Demis Hassabis(DeepMind的CEO)在推特上写着:赢了,AlphaGo登上月球。
我们最初没想过会做出这么强的AlphaGo,当初是抱持着「探索」的心理开始的。开发过程很辛苦,连过圣诞节时,AlphaGo都还在自我对弈,同事也都还在工作。所以对我们来说,AlphaGo赢了就像阿姆斯特朗登上月球一样:「这是我的一小步,却是人类的一大步。
第二件是操作AlphaGo Master在网络取得60连胜,第三是在中国乌镇比赛打赢柯洁。我参加了两次人机大战,两次的气氛都非常不一样。
在韩国时,我们都可以深深感受到李世石的巨大压力,感觉他是为人类而战,第二次在乌镇的气氛倒是满愉快,大家是一种建设性而不是对抗性的气氛。
第四件事就是AlphaGo Zero诞生,DeepMind把所有人类围棋知识抛弃掉,只给规则让它从头开始学。
我回想起我在师大念博士班开发Erica围棋电脑程序,每天写程序、解Bug、做测试到半夜的日子,但AlphaGo Zero把我之前做的这些事全部取代,完全不需要我的协助。
于是有同事问我,AlphaGo Zero把你过去十几年在计算机上做的研究一点一点的拿掉,还远远超越你,你有什么感觉?一开始我心情有点复杂,但后来想想这是「趋势」。
如果我让AlphaGo有所阻碍的话,那我确实应该被拿掉,AlphaGo 99%的知识经我之手,它到达这一步其实是我从事计算机围棋研究的非常好的收尾,我已经非常满足了。
▌开发Erica,获邀加入DeepMind
AlphaGo怎么开始的?其实是三组人马走在一起、串起来的结晶,第一条线是DemisHassabis和DeepMind AlphaGo项目负责人David Silver,第二条线是我,第三条线是Google Brain的两位人员Chris Maddison和Ilya Sutskever。
Demis Hassabis和David Silver是在剑桥大学的同学,他们一起创业。他们为什么想做围棋呢?当年IBM深蓝赢了西洋棋世界冠军卡斯巴罗夫,就只剩下围棋是人工智能最大的挑战。因此他们一直就希望做出很强的围棋程序,这是他们的梦想。一开始,研究人员是将西洋棋的技术放进围棋,但这失败了,2006年蒙特卡洛树出来之后,围棋程序提升到业余三段,但离职业水平还是有极大的差距。
当我开发出的Erica在2010年的计算机奥林匹亚获得19路围棋的冠军时,我使用的硬件是8 cores,Zen用了6台PC,美国的Many Faces of GO是用12 cores,其他对手都是用大机器,但小虾米却赢了大鲸鱼。不久,DemisHassabis就写了一封信问我要不要加入,面试时他们告诉我,他们的梦想就是强人工智能。隔年我就加入DeepMind。当我们开始做GO Project时,大家都有一个共识——不复制Erica,因为没有意义,我们决定要把深度学习应用进来。
▌AlphaGo的成功是深度学习与强化学习的胜利
我们怎么判断深度学习可能可以用在围棋呢?如果说,人看一个棋盘,几秒内大概可以知道下这里、下那里会是好棋,这种任务神经网络就办得到,但如果要想好几分钟后怎么走,那神经网络就可能办不到。当初我们就有这么一个直觉:要以深度学习建构策略网络。
AlphaGo的主要突破是价值网络,有一天,David Silver跟我说他有这样一个想法,当时我还有点质疑。我们把策略网络做出来后,胜率就提高到70~80%,后来加入了David Silver提出的价值网络,要让机器进行不断左右互搏的自我学习,一开始不太成功,过了一个月我们克服over fitting的问题后,AlphaGo的胜率大大提升到95%,而这也是后面AlphaGo Zero的主要核心。
后来老板就说,要跟人类面对面下棋,就得跟樊麾老师比赛。我记得,当樊麾第二盘棋输了之后,他就说:我要出去走走,因为现场只有我和他说中文,我就说:我陪你,他回答:不用,我自己透透气。樊麾回来后,他变得很正面,他不觉得这东西很可怕,而是很正面也很值得期待,因此他后来也变成DeepMind团队的一员。再后来,我们选择公开发表这个研究的论文,因为科学的精神就是互相分享,希望推动整个研究领域进步。之后,加入Google也为我们带来很大帮助,特别是硬件上,从GPU到TPU都没有后顾之忧。但TPU对我们有极大帮助,把胜率提高了很多。
另外,大家不要忘记,AlphaGo在跟李世石比赛时,第四盘棋输的很惨,我当时想说,我自己来下都比较好。尽管最后我们赢了,但回去后就一定要解决这个弱点,不是只解决当初第四盘的弱点,必须全面性地解决,否则以后还是没有人敢用AI系统。进化后的版本就是AlphaGo Master。
我们到底怎么解决呢?还是用深度学习跟强化学习的方法,而不是用人类知识方法。
1.我们把AlphaGo的学习能力变强,从神经网络加深:从13层变成了40层,并改成ResNet。
2.把2个网络(决策网络、价值网络)结合成1个网络,让AlphaGo的直觉和判断同时得到训练,更有一致性。
3.改进训练的pipeline。
4.解决了模仿期、循环期等特别情况。
▌超越以往的AlphaGo Zero
AlphaGo Zero是连我们自己都很惊讶的版本,因为它第一步就是把所有人类知识的部分都抛掉,它是脱离「人类知识」,不是脱离「规则知识,我们一样是给要它19X19的盘面训练。
从零开始的AlphaGo还真的是全部乱下、彻底乱下,所以最初我们预期AlphaGo Zero应该是赢不了AlphaGo Master,后来我们用了一些方法把卡住的地方解决了,细节可以参考论文,没想到AlphaGoMaster进一步超越原先的版本,3天就走完人类几千年围棋研究的历程。深度学习跟强化学习的威力真是太大。
AlphaGo Zero用了2000个TPU、训练了40天。第40天还没有到达其极限,但因为我们机器要做其他事情就停下了,所以它还有很大的潜质。AlphaGo Zero论文的目的不是要做出很强的程序,也没有想要跟人类知识比较、或是讨论人类知识有没有用这些问题,而是想证明程序不需要人类知识也可以拥有很强的能力。
我观察到,计算机围棋AI的价值在于帮助人类或棋手扩展围棋的理论和思路,未来AI是人类的工具,跟人类合作,而非跟人类对抗。强人工智能还是Far Away,现在最强的学习技能仍在人类的脑袋里。
以上就是黄士杰的演讲内容。
总结
David Silver曾指出:”AlphaGo已经退役了。这意味着我们将人员和硬件资源转移到其他AI问题中,我们还有很长的路要走」。大家都在关注未来DeepMind下一个锁定的领域,而在会议上,黄士杰没有透露太多,但强调「让世界变得更好」,就是DeepMind的终极目标。
至于是否可能将AlphaGo Zero开源?黄士杰的回答是目前公司没有这种想法,论文其实写得很清楚,之后大家也可以进一步优化算法。
和此前的AlphaGo版本相比,AlphaGo Zero的主要成果如下:
1.AlphaGo Zero从零开始自我学习下围棋。
2.仅仅36小时后,AlphaGo Zero靠着自我学习,就摸索出所有基本且重要的围棋知识,达到了与李世石九段对战的AlphaGo v18(也就是AlphaGo Lee)的相同水平。
3.3天后,AlphaGo Zero对战AlphaGo v18达到100%的胜率。
4.不断进步的AlphaGo Zero达到了Master的水平。Master即年初在网路上达成60连胜的AlphaGo版本。
5.40天后,AlphaGo Zero对战Master达到近90%胜率,成为有史以来AlphaGo棋力最强的版本。
过去,DeepMind在训练AlphaGo时,先让机器看20~30万个棋谱,累积一定的人类知识后开始进行自我对弈,自我对弈到达一定程度后机器就有机会赢过人类,因为机器可以在数个礼拜内就下几百万盘,它的经验比人多得多。黄士杰指出:「AlphaGo成功的背后是结合了深度学习(Deep Learning)、强化学习(Reinforcement learning)与搜索树算法(Tree Search)三大技术。」
简单来说,当时的AlphaGo有两个核心:策略网络(Policy Network)、评价网络(Value Network),这两个核心都是由卷积神经网络所构成。具体而言,首先是大量的棋谱被输入到「策略网络」中,机器会进行监督式学习,然后使用部分样本训练出一个基础版的策略网络,以及使用完整样本训练出进阶版的策略网络,让这两个网络对弈,机器通过不断新增的环境数据调整策略,也就是所谓的强化学习。而「策略网络」的作用是选择落子的位置,再由「评价网络」来判断盘面,分析每个步数的权重,预测游戏的输赢结果。当这两个网络把落子的可能性缩小到一个范围内时,机器计算需要庞大运算资源的负担减少了,再利用蒙特卡洛搜索树于有限的组合中算出最佳解。
不过,到了AlphaGo Zero,DeepMind则是让它「脑袋空空」——没有输入任何棋谱,让机器自己乱玩。
也就是说,从一个不知道围棋游戏规则的神经网络开始,没有任何人类指导或人类智能的参与,仅仅通过全新的强化学习算法,让程序自我对弈,自己成为自己的老师,在这过程中神经网络不断被更新和调整。
没想到的是,机器训练的时间更短,但却更聪明,例如,AlphaGo Zero在3天内进行过490万次自我对弈,就达到了先前击败李世石的程度,但之前他们训练与李世石对战的AlphaGo却花费了长达数个月的时间。
另外,AlphaGo Zero 21天就达到了在乌镇围棋峰会打败柯洁的AlphaGo Master的水平。
关于中国台湾人工智能年会——
现今人工智能系统的关键技术为深度学习,而深度学习和所有的机器学习技术一样,都必须依赖训练数据才能建构出好的深度/机器学习模型。也因此,人工智能和数据科学唇齿相依-没有数据科学,就没有人工智能;但同时人工智能可说是数据科学最重要的应用之一。
因此,由2017年开始,中国台湾数据科学协会由中国台湾数据科学年会衍生独立出中国台湾人工智能年会,着重在推广人工智能的认知、技术及应用。人工智能年会的议题包含实现人工智能的方法以及面对人工智能技术所带来的问题,例如深度学习、自然语音处理、电脑视觉等技术以及人工智能在制造、金融、医疗、农业、零售等所有领域的应用议题。我们期待能透过演讲、课程、心得分享、经验交流等各种形式,将对于人工智能的正确认知传达给大众,让人工智能不只是一个流行术语,而是能真实帮助中国台湾产业升级,生活素质提升,并且让社会永续的重要科技。我们鼓励本土的技术深耕,而不是跟上潮流的安慰,因此将把人工智能年会打造中国台湾所有人工智能技术专家的舞台及交流场域,让中国台湾在全球人工智能技术的快速发展洪流中不落人后,能占有一席之地。
网址:http://datasci.tw/
特别提示-强化学习知识资料下载:
请关注专知公众号