首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

科技播报:DeepMind和OpenAI掌握游戏的真正原因是什么?

大家好我是小翰,本文的作者,欢迎阅读本期的科技小文章。机器人和人工智能仍然可能会遇到人类认为很简单的许多任务,但是当涉及到游戏时,它们会让人类感到不安。

无论是古老的棋盘游戏还是经典的街机游戏,机器都被教会在人类根本无法比拟的水平上玩游戏。为了实现这些突破,GoogleDeepMind和OpenAI等组织采用了强化学习,这使得系统在大量游戏过程中使用试错法来学习技术。这种对游戏的关注可能看起来微不足道,但根据DeepMind前软件设计主管TobySimpson所说,每个游戏都是机器人破解现实世界任务的踏脚石。

Simpson参考了DeepMind在掌握日益复杂的游戏方面所取得的快速进展。2015年,DeepMind报告其系统在相对简单的2D游戏中为20世纪70年代的控制台Atari2600取得了最佳效果。然而,在2018年,它的强化学习系统在更加复杂的虚拟世界中与人类进行着对比。

在训练过程结束时,这些AI代理能够与其他机器人和人类玩家协调,以在游戏中击败其他人类玩家团队。他们不仅独立学习了游戏规则,而且还掌握了人类玩家使用的战术,例如基地露营和跟随队友。“这些环境中的每一个都越来越复杂,越来越真实,他们将这些学习系统,这些代理人,暴露给越来越像现实生活的世界,”辛普森说,他后来共同发现了Fetch.ai,它创造了所谓的自适应,自组织的“智能分类帐”,以支持新的商业模式。

“你可以看到,随着时间的推移,这就是他们正在使用这些东西的地方。所以是的,这非常令人兴奋。游戏非常棒,因为你可以一次采取这些步骤,越来越接近现实,直到你到达那里。”人工智能研究小组OpenAI在在线多人游戏Dota2中与单人游戏玩家取得了同样令人印象深刻的成绩,并希望进一步提升这一挑战。

训练机器人玩Dota2是一项艰巨的任务。每天,OpenAIFive通过玩相当于180年的游戏来学习,在由256个GPU和128,000个CPU核心组成的系统上运行一类称为近端策略优化的强化学习算法。再次,游戏是一项严肃的事业,OpenAI的目标是最终的实际应用程序。“相对于像Chess或Go这样的AI里程碑,复杂的视频游戏开始捕捉现实世界的混乱和连续性,”它写道。

“希望解决复杂视频游戏的系统非常通用,游戏外的应用程序也是如此。”掌握具有实际适用性的Dota2所需的一些复杂行为包括欣赏决策的长期战略影响,根据不完整的数据推断可能发生的事情,能够权衡大量可能的行动,以及考虑非常大量代表当前世界状态的变量。随着掌握的游戏变得越来越复杂,辛普森认为,这样的系统最终可以成为教授机器人如何应对现实世界的不可预测性的基础,而现实世界传统上对计算机来说太过混乱了。

“人类真正擅长的事情之一就是与真实,非常复杂的空间进行互动,而这些空间以前没有任何曝光。我坐在椅子上,这是我以前从未见过的,但不知怎的,我是坐在它上面。我用一种我以前从未见过的玻璃杯喝水,但我仍然可以做到这一点而不会溢出它。

广义机器人学习谷歌已经在使用类似的机器学习方法来深入了解DeepMind用于掌握游戏的方法,以便开发能够观察周围环境并确定最佳行动方案的机器人,同时还能对意外结果做出反应。使用分布式深度强化学习系统,谷歌能够训练机器人手臂如何可靠地抓住单个物品,从大量杂乱的一堆不同形状和大小的物体中挑选出来。该系统能够从正在使用它的七个机器人中的每个机器人的588,000个抓取尝试中的每一个中学习。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180717A15U3200?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券