DeepMind AI只需要4个小时的自我训练即可成为国际象棋霸主

图片来自网络

我们在10月份了解到了DeepMind主导的游戏AI 。其新的神经网络不断完善自己去击败了先期优点,在感知方面,为了实现自我训练的成功,人工智能只能局限于明确的规则限制其行为问题,明确的规则决定了游戏的结果。

本周,一篇新的论文详细介绍了DeepMind的AI在这种情况下自我训练的改进速度。现在发展到AlphaZero,这个最新的迭代从头开始,在经过八个小时的自我训练之后击败了人类Go 冠军 。而当AlphaZero转而决定自己教棋,AlphaZero还花了两个小时的时间学习规则知识,仅仅经过四个小时的自我训练。 击败了目前世界冠军的国际象棋程序,

这一切让人非常震惊,DeepMind的最新AI在不到一天的时间里,在三个独立的复杂棋类中成为世界级的竞争对手。这个团队打算在这个时候构建一个以前的软件的“更通用的版本”,看起来他们成功了。

图片来自网络

早在2015年10月,当AlphaGo击败三届欧洲冠军时,它依靠深度神经网络机器学习和搜索技术的新颖组合。在不涉及所有复杂性的情况下,系统观察人类然后通过在称为强化学习的过程中,将AlphaGo的实例相互对抗来磨练其策略。从而AlphaGo可能占主导地位。

这一次,AlphaZero更加依赖强化训练,类似2017年10月AlphaGo Zero的成功。该算法将通过对其自身的第二个实例进行学习。两个Zeroes都会从规则的知识开始,但是他们只能随机移动。然而一旦移动被执行,该算法追踪是否与更好的游戏结果相关联。随着时间的推移,这种知识累计导致更复杂的算法。

我们满满了解,AI建立了以及与他们所玩游戏结果相关的值。它记录了过去某一特定举措的发生频率,因此可以迅速确定一直与成功相关的举措。由于神经网络的两个实例同时在改进,程序确保了AlphaGo Zero总是与当前技能水平以上的挑战对手进行比赛。无论国际象棋多复杂,有可能的位置总计是轻松超过10点100的可能性。

图片来自网络

AlphaGo的成功是如此令人印象深刻,这个壮举是DeepMind最新的一个里程碑,现在包括击败最好的人类棋手,51胜的在线连胜,并且训练自己成为世界级的。正如我们之前提到的,人类几乎没有机会再次击败AlphaGo,但是我们通过观看这个人工智能仍然可以了解本身的意义价值。

欢迎关注科技大侦探

本文来自企鹅号 - 科技大侦探媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

Facebook 开源机器学习库 TorchCraft(附 LeCun 深度学习教学视频)

【新智元导读】Facebook 日前开源了机器学习库 TorchCraft,方便研究人员使用控制器,编写能够玩星际争霸游戏的智能代理。此外,本周五 FAIR 主...

4217
来自专栏大数据文摘

Youtube爆火视频 | 用TensorFlow+40行代码识别手写数字图像

2892
来自专栏哲学驱动设计

091018 CH 培训方法论总结

现在我先就目前思考的方法论进行一个小的总结: Tree-Thinking CS 目标制定:     WWH、Smart-C、SWOT 做事方案:     分析客...

2059
来自专栏量子位

清华马少平教授详解:人工智能能做什么?

原文刊载于 明略数据(Minglamp_BigData) 量子位 | QbitAI 已获授权编辑转载 这是7月下旬,马少平老师在明略数据内部做的一个分享,基于此...

3466
来自专栏大数据文摘

计算广告关键技术:他们怎么什么都知道?

39911
来自专栏人工智能快报

企业竞相布局人工智能

如今,很多大公司都会利用神经网络来完成一些模拟人类思维的任务。 最初实现的任务是语音识别,但是现在IBM的超级电脑沃森(Watson)及其他各种各样的神经网络正...

3324
来自专栏新智元

【Nature 通信】研究发现观察学习的单个神经元计算机制(视频+论文)

【新智元导读】《自然-通信》今日刊文,揭露人类在通过观察学习时大脑里的计算机制。Michael Hill 和他的同事分析了十名癫痫患者在玩纸牌游戏时,大脑中单个...

3435
来自专栏PPV课数据科学社区

足球大数据:统计和分析之间岂止一步之遥

我们当然希望从这些简单的描述性的统计数据背后能够挖掘出更多关于足球比赛本质的信息。虽然这方面已经开展了很多工作,也有了一些进展,但是还只是在萌芽阶段。 ? 相...

4184
来自专栏数据派THU

英雄联盟如何指挥团战?AI帮你做决策(附资源)

[ 导读 ]英雄联盟是一个需要默契团队配合的多人对战游戏。在瞬息万变的战斗中,如何做出正确的决策非常重要。最近,数据分析师 Philip Osborne 提出了...

1045
来自专栏企鹅号快讯

DeepMind AI只需要4个小时的自我训练即可成为国际象棋霸主

图片来自网络 我们在10月份了解到了DeepMind主导的游戏AI 。其新的神经网络不断完善自己去击败了先期优点,在感知方面,为了实现自我训练的成功,人工智能只...

1936

扫码关注云+社区