前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >败1/4子是刻意设定?蒋涛讲解AlphaGo2.0如何进化

败1/4子是刻意设定?蒋涛讲解AlphaGo2.0如何进化

作者头像
AI科技大本营
发布2018-04-27 14:11:43
4350
发布2018-04-27 14:11:43
举报

柯洁输了,赛后记者会的焦点转向AlphaGo,重点如下:

1. 这次比赛的AlphaGo是单机版,仍然在用人类知识加以训练。

2. 下个月将会发表关于AlphaGo的新论文,目的是让其他程序同样能变强。

3. 整个比赛结束后,将会公布AlphaGo下一阶段的新计划。

这里,我们再来回顾一下蒋涛对于AlphaGo如何进化的语音讲解。

从棋局上看,柯洁的表现还是值得称赞的。但最后,当然还是毫无悬念就输掉了,这说明人类在准备上,针对AlphaGo还是有不足。

柯洁不是一个人在战斗,应该是中国的围棋界,加上中国的计算机界、AI界来一起迎战人类最强大的对手。如果我们能够打败他,这将是一个非常重磅的新闻。

可是我们现在感觉,柯洁在开局上的套路准备有所不足。50多手下来,其实局面对黑棋(柯洁)来说已经不乐观了。所以,这是反映我们准备不足的一个因素,特别是点三三局面的变化其实并不复杂,但从判断来讲是黑棋(柯洁)不利。

这里是我们对棋局的看法。

AlphaGo棋风已变

聂卫平老师有说,AlphaGo是特意只输半颗子。这一说法我们尚不能证实,但AlphaGo的白棋在后续变化上,相对于人类棋手对局,肯定是下得比较保守的。而另一个角度,柯洁的发挥又相对强势。

因而,最后能出现这么细微的局面,说明棋局还是在AlphaGo的掌控之中的,毕竟它要确保的是结果的胜利。至于胜子1目还是10目,对于电脑来说,这里的判断其实是一样的,都是100%胜利这个结果。

所以,我认为这是两个方面的因素,一是电脑从计算上可能做了适当的退让,这从取胜的角度讲是完全没有问题的;二是柯洁在官子上也下得相对紧凑和精彩。

相对于去年的版本,今年AlphaGo的成长是非常明显的。它有了很多创新的下法,和自己独有的下法,这些下法我们可以从它今天的对局以及年初的Master大战群雄上看出来。

DeepMind创始人哈萨比斯也简单讲过它的细节,AlphaGo今年是单机版,在计算量上是去年的十分之一,但能力上看来比去年提升了不止一点。

用柯洁自己的话说,他有信心战胜去年的AlphaGo,但距离Master与新版AlphaGo的差距是非常显著的。

强化学习功不可没

从新版AlphaGo的表现来看,它更多是在自我学习的成长上,也就是通过强化学习(Reinforcement Learning)和自我对局演化成不同的版本。这样,每一个AlphaGo程序都会有它自己的风格,你可以有意识地诱导它往不同风格去发展。

如果没有不同的风格,强化学习的效果就不会太好。这就相当于你左右互搏,尽管自己和自己下得很多,但风格相近的成长对你未必是好事。而不同风格的成长,就能带来更好的结果。

总的来说,这次的AlphaGo,跟去年相比是很不相同的,棋风也大不一样,下法的创新程度也要高很多。这要归功于它在自我对局中的成长,同时也证明DeepMind在强化学习上的研究和成果是非常有价值的。

每日荐文

点击下方图片阅读精彩内容

AI 技术讲座精选:神经网络结构深入分析和比较

马斯克的最终幻想,人类将变为超人还是奴隶?

版权申明:如需转载请后台留言征得同意。


本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-05-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI科技大本营 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档