首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Openai研究用仅单个机器手掌就能解决的魔术方块

Openai最新的人工智能研究成果,是用单个机器手掌就能解决魔术方块,他们使用与操作⟪Dota2⟫人工智能OpenAIFive相同的增强学习程式码,搭配上一种称为自动域随机化(AutomaticDomainRandomization,ADR)的新技术,以完全模拟的方式训练机器手掌,现在机器手掌能以60%的成功率解开魔术方块。对人类来说,单手解决魔术方块也不是一件简单的事,人类孩童需要花费数年的时间,才能掌握单手操作需要的灵巧性。在过去60年的机器人技术,人类需要为困难的任务设计客制化的机器人,因此开发使用通用机器人硬体的方法,一直是近几十年人类的目标,而Openai在这项最新的研究中,使用15年前的机器手掌,搭配最新的方法,在通用机器人硬体操作课题上前进了一步。Openai利用了神经网路来解决魔术方块的问题,透过增强学习进行模拟,并且使用柯西姆巴(Kociemba)演算法以挑选魔术方块解法的步骤,并且利用域随机化(DomainRandomization)将训练模拟转移到真实的机器手掌上。而让机器手掌操作魔术方块最大的挑战,是在创建的模拟环境中,模拟出真实世界特徵,研究人员表示,像是魔术方块或是机器手掌这类複杂的物体,非常难模拟其摩擦、弹性或是动态性,仅是靠现有的域随机化技术是远远不够的,因此为了克服这个问题,他们开发了自动域随机化技术,这个技术可以在模拟训练中产生越来越困难的环境。

自动域随机化训练会从单一且非随机的环境开始,让神经网路先学会解决魔术方块,随着神经网路的表现越来越好,在达到一定的效能阈值时,域随机化的数量便会自动增加,让神经网路应付更随机的环境,使得需要解决的任务更加困难,当神经网路不断学习后,再次超过效能阈值时,便会再加入更多的随机化,然后重複该过程。自动域随机化的参数有很多种,一开始从固定魔术方块的大小开始,之后随着训练逐渐增加随机范围,变动魔术方块的尺寸和重量,也会随机化机器手指的摩擦力和手的视觉表面材质,神经网路需要在越来越困难的情况下,解决魔术方块。研究人员提到,过去域随机化需要手动指定随机范围,但这并不容易,太多随机化使得学习太困难,太少又会阻碍模拟转移到真正机器人上的效果,而自动域随机化能够自动扩展随机范围,不需要人工干预,也不需要研究人员对域知识的理解,降低了该方法使用到不同领域的难度,而且由于自动域随机化让训练任务始终具有挑战性,训练成效不会收敛。自动域随机化让神经网路在无数种随机情况中进行模拟,进而增加了强健性,当神经网路从模拟转移到真实机器人上的时候,就能够快速辨识并适应真实世界的环境条件。研究人员利用了各种扰动,以测试机器手掌解决魔术方块的强健性,包括把机器手掌的两隻手指绑起来、戴上橡胶手套、阻碍视觉或是以长颈鹿玩偶随意干扰等。在施予扰动的初期,机器手掌解决魔术方块的时间都会上升,研究人员解释,这是因为之前学习的策略无法发挥作用,当经神经网路过一段时间学习之后,完成的时间便会下降到之前的水准。目前Openai的成果,在需要15次翻转才能完成魔术方块的条件,机器手掌有60%的成功率解决魔术方块,但是在需要26次翻转的複杂条件,现在机器手掌就只有20%的成功率。研究人员提到,他们的神经网路在前几次的翻转,魔术方块掉落的机率特别大,这是因爲神经网路需要透过初期的翻转适应物理世界。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20191018A0DRVY00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券