牛津大学教授：AlphaGo Zero的自学能力“可能会出现自发性”

新智元

发布于 2018-03-21 16:42:42

8060

发布于 2018-03-21 16:42:42

文章被收录于专栏：新智元

【新智元导读】 根据新智元此前报道，新一代AlphaGo Zero以100:0打败了AlphaGo。AlphaGo Zero能获得如此战绩，完全通过自学，无需任何人类知识的输入。这是机器崛起，迈向超人类能力的重要一步。那台曾经打败人类顶尖棋手、扬名天下的AlphaGo变得更聪明了。

根据新智元此前报道，新一代AlphaGo Zero以100:0打败了AlphaGo。AlphaGoZero能获得如此战绩，完全通过自学，无需任何人类知识的输入。这是机器崛起，迈向超人类能力的重要一步。

AlphaGo Zero在三天内就掌握了几千年来的围棋知识。而围棋，被认为是世界上最复杂的二人对弈。

DeepMind首席研究员、AlphaGo研究负责人David Silver表示，“AlphaGo Zero不仅发现了人类玩家通常使用的模式和开局方法，它更是抛弃了这些（传统打法），采取了人类完全不了解的新玩法。”

不受人类知识限制

据DeepMind研究人员称，和AlphaGo通过学习人类棋局不同，AlphaGo Zero并未看过任何棋谱，也没有和人类对弈过。

Silver此前在一个视频中介绍到，“之前所有版本的AlphaGo都被告知

‘在这里，人类会这样走；那里，人类又会那样走。’”

但AlphaGo Zero省略了这一步。它被设计为回应奖励：赢了得一分，输了扣一分。

AlphaGo Zero从围棋规则开始，没有收到任何指示。系统自己通过不断和自己对弈，学习围棋，制定并不断改进策略，从而掌握如何获得奖励。这是一个“强化学习”的试错过程。

Silver和DeepMind CEO Demis Hassabis在一个博客中写道，“AlphaGoZero不再受到任何人类知识的限制。”

令人吃惊的是，AlphaGo Zero只用了一台模拟人脑神经网络的机器。而打败李世石时，则使用了多台机器”大脑“。

AlphaGoZero有4个数据处理单位，而AlphaGo有48个。AlphaGo Zero在三天内打了490万次训练比赛。而AlphaGo过去几月的训练总和为3000万。

开始，还是终结？

Silver说，“人们总觉得机器学习是关于大数据和海量计算，而实际上我们在AlphaGo Zero中看到，算法更加重要。“

密歇根大学的SatinderSingh在Nature中曾评论过，基于强化学习的AI表现优于那些依靠人类经验的AI。

他还说，“但这不是任何结局的开端。因为就像迄今为止所有成功的AI一样，和人类甚至动物相比，AlphaGo Zero对其他领域都知之甚少。“

牛津大学人类未来研究所的Anders Sandberg说，AlphaGo Zero的自学能力“可能会出现自发性。” “但人类通用智慧和计算机软件专有智慧之间，有很大区别。”

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2017-10-21，如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自新智元微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度