DeepMind AI只需要4个小时的自我训练即可成为国际象棋霸主

企鹅号小编

发布于 2018-01-04 15:50:11

1.1K0

发布于 2018-01-04 15:50:11

文章被收录于专栏：企鹅号快讯企鹅号快讯

图片来自网络

我们在10月份了解到了DeepMind主导的游戏AI 。其新的神经网络不断完善自己去击败了先期优点，在感知方面，为了实现自我训练的成功，人工智能只能局限于明确的规则限制其行为问题，明确的规则决定了游戏的结果。

图片来自网络

本周，一篇新的论文详细介绍了DeepMind的AI在这种情况下自我训练的改进速度。现在发展到AlphaZero，这个最新的迭代从头开始，在经过八个小时的自我训练之后击败了人类Go 冠军。而当AlphaZero转而决定自己教棋，AlphaZero还花了两个小时的时间学习规则知识，仅仅经过四个小时的自我训练。击败了目前世界冠军的国际象棋程序，

这一切让人非常震惊，DeepMind的最新AI在不到一天的时间里，在三个独立的复杂棋类中成为世界级的竞争对手。这个团队打算在这个时候构建一个以前的软件的“更通用的版本”，看起来他们成功了。

图片来自网络

早在2015年10月，当AlphaGo击败三届欧洲冠军时，它依靠深度神经网络机器学习和搜索技术的新颖组合。在不涉及所有复杂性的情况下，系统观察人类然后通过在称为强化学习的过程中，将AlphaGo的实例相互对抗来磨练其策略。从而AlphaGo可能占主导地位。

这一次，AlphaZero更加依赖强化训练，类似2017年10月AlphaGo Zero的成功。该算法将通过对其自身的第二个实例进行学习。两个Zeroes都会从规则的知识开始，但是他们只能随机移动。然而一旦移动被执行，该算法追踪是否与更好的游戏结果相关联。随着时间的推移，这种知识累计导致更复杂的算法。

我们满满了解，AI建立了以及与他们所玩游戏结果相关的值。它记录了过去某一特定举措的发生频率，因此可以迅速确定一直与成功相关的举措。由于神经网络的两个实例同时在改进，程序确保了AlphaGo Zero总是与当前技能水平以上的挑战对手进行比赛。无论国际象棋多复杂，有可能的位置总计是轻松超过10点100的可能性。