专栏首页AI研习社Open AI如何用“自我对局”训练AI机器人变身“摔角王”?

Open AI如何用“自我对局”训练AI机器人变身“摔角王”?

OpenAI 于近日的一项研究中发现,在一个非明确的技能训练的环境中,AI 能够通过“自我对局”的训练掌握一系列动作技能,比如进攻、躲避、假动作、踢、抓等等。“自我对局”训练确定了环境对于提升AI系统的重要性。Dota2在“自我对局”训练中的表现和结果让团队越来越相信,“自我对局”训练不久将会成为AI系统的核心。

论文原文:https://arxiv.org/abs/1710.03748

代码:https://github.com/openai/multiagent-competition 我们在几个3D机器人之间设置了一些基本的游戏竞赛,利用一些简单的目标(比如:将对手推到场地圈外;到达场地的另一边,并阻止对手到达;把球踢进对手的网内,而不让对手的球踢进自己的网内等。)对每个机器人进行训练,并且分析机器人在完成目标时所使用的技能和策略。

一开始,机器人会因为站立、前进这样的行为而获得丰厚的奖励,但最后这些奖励会被清零,只有胜利的机器人才会获得奖励。除了这些简单的奖励以外,机器人还会学到一系列动作技能,比如进攻、躲避、假动作、踢、抓等等。在这个过程中,每个机器人的神经网络都单独接受了“近端策略优化”(http://t.cn/RWc4h7I) 的训练。

为了弄清楚在这些目标和竞赛的压力面前,机器人会作出如何复杂的行动,我们不妨分析一下机器人的“摔角相扑”比赛吧。在这个比赛中,为了训练机器人行走,我们在比赛前期给机器人设置了丰厚的奖励;增加了从这个圆形场地中心起的负L2距离,并且将其设置为机器人获得的丰厚奖励。机器人一开始的时候可以使用这些奖励在比赛场地内作出一些动作和反应,但是我们会在训练中把奖励悄悄地清零。这样一来,在接下来的训练迭代中,机器人才会为了得到更多的奖励,自觉地对自己的动作和技能进行优化。

设计出有助于这些技能训练的任务和环境并非不可能,但这不仅需要研究员耗费大量的精力,还需要他们具备独到的创意。此外,机器人的行为也可能会因为人类设计师在设计中出现的问题而变得更复杂。通过成千上万次的迭代优化,我们能够开发出更好的机器人,进而可以创造出功能强大的AI系统,该系统能够自我引导,并完成性能自我优化。在Dota2项目中我们也能发现类似的自我优化现象。在Dota2项目中,“自我对局”训练让我们成功创造出了一个能够在电子竞技的solo版本中击败顶级人类玩家的强化学习机器人。

迁移学习

视频链接:

https://v.qq.com/x/page/d0560a80uzz.html?_out=101

刚刚完成“摔角相扑”训练的机器人,现在又要开始应对“强风”了。

这些机器人还能进行“迁移学习”,它们能够把在一场景学习到的技能运用于另一个从未接触过的场景。在一个案例中,我们给那些经过了“摔角相扑”训练的机器人设置了一个任务,让它们在强风中始终保持站立。结果是,那些无视这个强风环境的机器人能够始终保持直立,而接受过传统强化学习训练的机器人在尝试行走时则会立刻摔倒。

过拟合

我们的机器人会与“co-learning策略”发生过拟合,该策略是针对某些特定的对手而设计的,但是在面对新的对手时,这个策略就会失效。针对这一问题,我们的解决方案是——让机器人与多个不同的对手进行“较量”。这些对手来自于一系列的策略,其中有同步训练或早期训练的策略。面对这些各式各样、风格不一的对手,机器人就必须学习更多通用的策略和技术,这样才能“来者不惧”。

原文链接:https://blog.openai.com/competitive-self-play/

本文分享自微信公众号 - AI研习社(okweiwu),作者:图普科技

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-10-24

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 15位学界、业界大咖深度解读仿生机器人及机器人应用丨CCF-GAIR 2018

    AI研习社按:2018 全球人工智能与机器人峰会(CCF-GAIR)在深圳召开,峰会由中国计算机学会(CCF)主办,雷锋网、香港中文大学(深圳)承办,得到了深圳...

    AI研习社
  • 言商丨机器人热潮中,神秘之师 ROOBO 在下一盘怎样的棋

    刘颖博和他的合伙人准备玩把大的。他所在的公司 ROOBO 旗下已曝光的产品有 5 款,儿童机器人、宠物狗机器人、VR一体机、无人机以及骨传导耳机。其中大部分产品...

    AI研习社
  • 业界 | 波士顿动力的第一个工业级解决方案:搬运机器人Pick

    AI 科技评论按:波士顿动力(Boston Dynamics)毫无疑问是有足机器人领域最引人瞩目的那家企业(没有之一)。在研发过程中,波士顿动力不断地公开有趣的...

    AI研习社
  • 大疆荣获全球机器人顶级荣誉,在国际学术舞台为华人争光

    AI 科技评论消息,6 月 29 日,国际电气和电子工程师协会(IEEE)日前宣布,DJI 大疆创新创始人汪滔及其导师李泽湘教授获得了 2019 IEEE 机器...

    AI科技评论
  • 教你DIY一个会打招呼的龟仙人——萌萌哒乌龟机器人

    编者注:本项目来自Instructables,项目作者为chombaw。 在本项目中,我将从头开始打造一个能够使用蓝牙进行控制的四足乌龟机器人。该机器人拥有两个...

    机器人网
  • 揭秘雷柏的机器人应用经验

    不到一个月,雷柏科技公司刚买的75台机器人就全部坏掉了。 “所有马达都用坏了。”项目负责人、副总经理邓邱伟非常恼火,这批橘黄色的小机器人总价有200多万元,在...

    机器人网
  • 很多机器人企业以为“站上风口”,其实是“往坑里跳”

    今年初,在央视猴年春晚上,540台机器人整齐划一地舞蹈,引爆全场。这些跳舞的Alpha机器人成了“网红”,而它们的主人——深圳市优必选科技有限公司的知名度也冲上...

    机器人网
  • 机器人真的有意识了!突破狭义AI的自我学习机器人问世

    过去几十年来,拥有自我意识的机器人一直是科幻小说最喜欢的题材之一,现在,这个过去只存在与科幻小说中的事物离我们越来越近了。

    新智元
  • 机器人底层行走技术已趋向成熟 服务机器人产业将迎来蓬勃发展

    随着服务机器人相关技术的不断成熟,“人格化”机器人越来越明显,未来,服务机器人代替人工工作势不可挡,有业内人士预测,在未来的两到三年内,服务机器人产业会得到大规...

    用户5290334
  • 未来机器人将如何变革零售业

    网上购物已经成为一种时尚的生活方式,网店提供了来自全球各地的丰富商品,而购物者期待购买到喜欢的商品并能快速接收到,甚至是同一天送达。这对于物流环节来说是巨大的挑...

    刀刀老高

扫码关注云+社区

领取腾讯云代金券