现场|David Silver原文演讲:揭秘新版AlphaGo算法、硬件和训练细节

AI科技评论按:乌镇围棋峰会第二天,在《AlphaGo研发介绍,AlphaGo意味着什么》主题演讲上,Demis Hassabis+David Silver针对昨天与柯洁鏖战的AlphaGo研发做了公开介绍,其中AlphaGo主程序员David Silver在演讲中讲到AlphaGo研发的关键介绍,AI科技评论根据现场原话整理出下文。

演讲摘要:有了这样强大的策略网络和价值网络,AlphaGo探索棋步的基本的搜索树规模就得以大幅度缩减。前一个版本AlphaGo Lee还是通过“只考虑人类可能走的位置”和“预判50回合”来限制搜索规模,如今AlphaGo Master已经考虑的是全局最有价值的位置,并且预测更少的回合数目还能达到更高的准确率。这样一来,蒙特卡洛树更窄更浅,回合中考虑的走子位置更少、预判回合数更少,预判依靠更强大的网络,只用4个TPU、AlphaGo Lee十分之一的计算能力就达到了更高的棋力。

AlphaGo Master的硬件,算法和训练细节

先从外界一直在关心的AlphaGo硬件问题说起,具体来说,AlphaGo Lee使用了谷歌云上的50个左右TPU。依靠这样的计算能力,我们可以做50层深的搜索,就是说落子前对棋盘上每一个可能的位置可以做50步预判。每秒它可以搜索100,000(one hundred thousand,十万)个位置。听起来挺多的,但是其实20年前的深蓝可以每秒搜索100,000,000(a hundred million,1亿)个位置。所以其实AlphaGo思考的时候比深蓝聪明多了,它用策略网络和价值网络,大大减少了需要搜索的路径数量。

说说新版本的AlphaGo吧,我们把它称作AlphaGo Master。这是目前最强的AlphaGo,也正是此次大会中比赛的AlphaGo。AlphaGo Master使用的算法要比以前高效得多,以至于只需要AlphaGo Lee版本十分之一的计算量。以及,训练AlphaGo Master也要高效得多。

AlphaGo Master运行在单台(single machine)电脑上(会后采访中,AI科技评论在内的媒体跟Silver亲自确认,是运行在单台电脑上,但包含4个TPU),但是比拥有更多TPU的AlphaGo Lee、AlphaGo Fan都要厉害。

AlphaGo Master为何如此厉害呢?背后的原因是因为我们用了最好的数据来训练它我们能获取到的最好的数据不是来自于人类,而是来自于AlphaGo自己。我们让AlphaGo做自己的老师。我们利用AlphaGo强大的搜索能力,自己生成数据,用生成的数据让下一代的AlphaGo学习。自己教自己。

用这样的方法,我们训练出的价值网络和策略网络就比以前的AlphaGo都要厉害。下面我来仔细介绍一下算法中的细节。

首先,我们让AlphaGo跟自己对弈。这是基于强化学习的,我们已经不再拿人类的棋局给它学习了。AlphaGo自己训练自己,自己从自己身上学习。通过强化学习的形式,它学到如何提高。

在棋局的每一回合,AlphaGo 运行火力全开(full power)的搜索以生成对落子的建议,即计划。当它选择这一步落子、实施、并到一个新回合时,会再一次运行搜索,仍然是基于策略网络和价值网络、火力全开的搜索,来生成下一步落子的计划,如此循环,直到一局棋结束。它会无数次重复这一过程,来产生海量训练数据。随后,我们用这些数据来训练新的神经网络。

首先,当 AlphaGo 和它自己下棋时,用这些训练数据来训练一个新策略网络。事实上,在 AlphaGo 运行搜索、选择一个落子的方案之前,这些是我们能获取的最高质量的数据。

下一步,让策略网络只用它自己、不用任何搜索,来看它是否能产生同样的落子的方案。这里的思路是:让策略网络只靠它自己,试图计算出和整个 AlphaGo 的火力全开搜索结果一样的落子方案。这样一来,这样的策略网络就比之前版本的 AlphaGo 要厉害得多。

我们还用类似的方式训练价值网络。它用最好的策略数据来训练,而这些数据,是出于完全版本的 AlphaGo 自己和自己下棋时的赢家数据。你可以想象,AlphaGo 自己和自己下了非常多盘棋。其中最有代表性的棋局被选取出来提取赢家数据。因此,这些赢家数据是棋局早期回合步法的非常高质量的评估。

比如说,在某局棋中,我们想知道在第 10 回合的局势,怎么办?我们从头重新运行一遍这局棋,发现最后黑方赢了,据此就可以做出合理推测:黑方在第 10 回合占优势。

所以你需要高质量训练数据来训练价值网络。然后用价值网络来预测这些 AlphaGo 自己和自己下棋的棋局中,哪一方是赢家。这些数据中,棋局的每一回合,我们都让价值网络来预测最后的赢家。

最后,我们重复这一过程许多遍,最终得到全新的策略和价值网络。比起旧版本,它们要强大得多。然后再把新版本的策略、价值网络整合到 AlphaGo 里面,得到新版本的、比之前更强大的 AlphaGo。这导致树搜索中更好的决策、更高质量的结果和数据,再循环得到新的、更强大的策略、价值网络,再次导致更强大的 AlphaGo,如此不断提升。

最后,AlphaGo的表现如何呢?以围棋等级分来看,以前ZEN、CrazyStone软件达到约2000分,樊麾版AlphaGo达到近3000分,李世石版AlphaGo上涨3子,达到3500分以上,AlphaGo Master又涨3子,达到4500分以上。

主题演讲过后,Demis Hassabis+David Silver接受了AI科技评论在内的多家媒体采访,对一些大家比较感兴趣的地方,这里一并附上:

1. 新版的AlphaGo已经不需要向人类导师取经了?

对,它已经不需要依赖外界的导师了,现在我们希望它往通用人工智能的AGI的方向发展。

2. 目前DeepMind在围棋上取得的成就是否有应用到其他方向的拓展上?DeepMind又在向其他方向拓展上有什么成果?

关于具体应用,我们还在应用的早期探索阶段,包括刚刚演讲中提到的新药研制等应用领域只是它中间某一个技术的行业使用。

3. 刚演讲中,您提到AlphaGo在下棋过程中已经开始拥有类似人类的“直觉”,这是否可以说其正在迈向强AI阶段? 意味着拥有自主意识?

我想应该这么说,在某一个具体的领域不断强化训练,只能说它在这个确定领域中实现了这种直觉或者自主意识,和人类直接产生的自主意识有区别。正因为这样,它有机会应用在不仅仅围棋领域,而是包括其它领域。

4. 您昨天提到的它的计算量相当于去年人机大战的十分之一计算量,能不能说地再清楚一些?

对,昨天我们说到,它用的是TPU,十个处理单位,只占到十分之一的计算量,这里强调一下,十分之一既指电力的消耗只占到之前的十分之一,也指运行调用的资源只占到之前的十分之一。

5. 请问您提到AlphaGo Lee使用了谷歌云上的50个左右TPU,这次它的计算力少了十倍的计算量,到底是用了多少个TPU?

是用了一个单机(Single Machine),这个物理服务器上面有4个TPU。

6. AlphaGo昨天比赛的后半局,按理应该是时间比前面用的更少,打你们为什么一直保持匀速的落子速度,这背后的算法做了什么样的设置?

我们每一步的计算是持续,稳定的,所以制定了对等时间求稳策略,来达到最大限度使用时间的目的,所以我们认为匀速是最好的。

7. AlphaGo在乔装成Master 60连胜的时候已经打败过柯洁,为什么还要举办这次公开比赛?

来自David Silver先生,AlphaGo首席研究员的声明:

新版本的AlphaGo, 已经过几百万次的自我训练,并在检测旧版本弱点方面表现出色。也因此,新版本的AlphaGo可以让旧的版本三个子。但当AlphaGo与从未对弈过的人类棋手对局时,这样的优势就不复存在了,尤其是柯洁这样的围棋大师,他可能帮助我们发现Alphago未曾展露的新弱点。这样的衡量标准是无法比较的。对于本周的第二轮和第三轮对局,我们拭目以待。

The new version of AlphaGo has trained against itself millions of times, and has learned to become very good at exploiting the weaknesses in previous versions. That's why it's about three stones stronger in head-to-head games against its older self. But that doesn't mean anything when it comes up against a human player with whom AlphaGo has never trained - particularly a great master like Ke Jie, who can uncover new weaknesses we don't know about. The scales just aren't comparable. We are excited for the second and third games this week! - David Silver, lead researcher for AlphaGo

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-05-24

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏PPV课数据科学社区

【推荐】数据科学家与数据科学。

仅仅在几年前,数据科学家还不是一个正式确定的职业,然而一眨眼的工夫,这个职业就已经被誉为“今后十年IT行业最重要的人才”了。 一、数据科学家的起源 "数据科学"...

2656
来自专栏机器人网

加州伯克利研发出史上最灵活的机器人手

一个多手指机器人在模拟环境中通过操控虚拟对象实现抓握,机器学习、云服务彻底改变传统手工劳动的时代距离我们不远了。在美国加利福尼亚大学伯克利分校的一个实验室里,一...

3397
来自专栏CDA数据分析师

后大数据时代,穿越吧,IT客!

【摘要】“随着科技不断发展,我们逐渐被海量数据淹没了。大数据对整个人类社会提出了全新的挑战,也为我们利用数据洞察推动社会变革提供了无限的可能。谁又能预测,未来大...

1807
来自专栏PPV课数据科学社区

用数据分析的方法教你如何获得一份美好的爱情~

一 为什么做爱情战略分析? 基于对爱情的三个重要假设 1、爱情是稀缺的情感资源: 由于是稀缺资源,因此爱情存在竞争和选择,只有理性决策,才能在有限的资源约束下对...

2564
来自专栏PPV课数据科学社区

【职业】关于数据科学家与数据科学最全面深入的学习阶梯总结及就业指导

仅仅在几年前,数据科学家还不是一个正式确定的职业,然而一眨眼的工夫,这个职业就已经被誉为“今后十年IT行业最重要的人才”了。 一、数据科学家的起源 “数据科学”...

2523
来自专栏数据科学与人工智能

【数据科学】数学的意义(院士最全最牛的解释,果断收藏)

作者:张恭庆 (北京大学数学科学学院教授、中国科学院院士、第三世界科学院院士) 数学既是一种文化、一种“思想的体操”,更是现代理性文化的核心。 马克思说:“一...

3358
来自专栏钱塘大数据

美媒评2018年全球十大突破性技术:AI和人工胚胎上榜

美国《麻省理工科技评论》本周刊文,列出了2018年的10大科技突破。今年入选的技术包括人工智能技术“生成对抗网络”(GAN)、人工胚胎,以及基于天然气的清洁能源...

804
来自专栏数据科学与人工智能

【数据科学】数据科学家与数据科学

仅仅在几年前,数据科学家还不是一个正式确定的职业,然而一眨眼的工夫,这个职业就已经被誉为“今后十年IT行业最重要的人才”了。 一、数据科学家的起源 "数据科...

2199
来自专栏大数据文摘

地平线余凯:自动驾驶处理器的“三国时代”| 清华人工智能研习社

1554
来自专栏新智元

【看车知政:李飞飞团队最新成果】识别谷歌街景中汽车图像,预测人口政治倾向

来源:Stanford News 编译:常佩琦 【新智元导读】李飞飞领导的斯坦福大学视觉研究室近期将人工智能的研究成果应用到人口统计学中。研究人员通过算法对谷歌...

25711

扫码关注云+社区