根据新智元此前报道, 新一代AlphaGo Zero以100:0打败了AlphaGo。AlphaGoZero能获得如此战绩,完全通过自学,无需任何人类知识的输入。这是机器崛起,迈向超人类能力的重要一步。
AlphaGo Zero在三天内就掌握了几千年来的围棋知识。而围棋,被认为是世界上最复杂的二人对弈。
DeepMind首席研究员、AlphaGo研究负责人David Silver表示,“AlphaGo Zero不仅发现了人类玩家通常使用的模式和开局方法,它更是抛弃了这些(传统打法),采取了人类完全不了解的新玩法。”
不受人类知识限制
据DeepMind研究人员称,和AlphaGo通过学习人类棋局不同,AlphaGo Zero并未看过任何棋谱,也没有和人类对弈过。
Silver此前在一个视频中介绍到,“之前所有版本的AlphaGo都被告知
‘在这里,人类会这样走;那里,人类又会那样走。’”
但AlphaGo Zero省略了这一步。它被设计为回应奖励:赢了得一分,输了扣一分。
AlphaGo Zero从围棋规则开始,没有收到任何指示。系统自己通过不断和自己对弈,学习围棋,制定并不断改进策略,从而掌握如何获得奖励。这是一个“强化学习”的试错过程。
Silver和DeepMind CEO Demis Hassabis在一个博客中写道,“AlphaGoZero不再受到任何人类知识的限制。”
令人吃惊的是,AlphaGo Zero只用了一台模拟人脑神经网络的机器。而打败李世石时,则使用了多台机器”大脑“。
AlphaGoZero有4个数据处理单位,而AlphaGo有48个。AlphaGo Zero在三天内打了490万次训练比赛。而AlphaGo过去几月的训练总和为3000万。
开始,还是终结?
Silver说,“人们总觉得机器学习是关于大数据和海量计算,而实际上我们在AlphaGo Zero中看到,算法更加重要。“
密歇根大学的SatinderSingh在Nature中曾评论过,基于强化学习的AI表现优于那些依靠人类经验的AI。
他还说,“但这不是任何结局的开端。因为就像迄今为止所有成功的AI一样,和人类甚至动物相比,AlphaGo Zero对其他领域都知之甚少。“
牛津大学人类未来研究所的Anders Sandberg说,AlphaGo Zero的自学能力“可能会出现自发性。” “但人类通用智慧和计算机软件专有智慧之间,有很大区别。”