首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

美国陆军开发用于训练机器人的新型算法

美国陆军研究实验室(ARL)的研究人员与得克萨斯大学奥斯汀分校(UT)的科学家合作开发出一种新型算法,能使机器人或计算机程序通过与人类互动来学习如何执行任务。研究成果将于本月2日至7日在路易斯安那州新奥尔良举行的美国人工智能促进协会年会上正式发布。

新型算法Deep TAMER

ARL和UT的科研人员为该算法设计了一个特定的背景环境,即人类以批判的形式向机器人提供实时反馈。该设想由UT的彼得·斯通教授及其博士研究生布拉德·诺克斯首先提出,并命名为“通过强化评估对代理进行人工训练”,简称TAMER。ARL和UT组成的联合团队以其为基础开发出的新型算法被称为Deep TAMER。

Deep TAMER是TAMER的扩展和延伸,使用深度学习框架。短时间内,机器人在人类教练的指导下观看大量视频学习如何执行任务。ARL的加雷特·沃尔内尔博士称,Deep TAMER算法的工作模式是,人类教练在观看视频的过程中要求机器人代理对细节进行观察,然后模仿具体行为,随后对该行为的属性进行批判,例如“好”与“坏”的区分,类似于驯养员训练动物。

▲ARL的加雷特·沃尔内尔博士(左)

沃尔内尔指出,研究人员早期在人机互动算法领域进行的研究,可以支持目前通过图像来观察世界的机器人或计算机程序进行上述训练,这对于具有机器学习能力的自主系统在现实世界中正常运行将是意义重大的第一步。当前的许多人工智能技术要求机器人与环境进行长时间交互,以学习执行任务的最佳方式。在这个过程中,机器人可能会执行一些错误的甚至是危险的操作。沃尔内尔认为,人类的协助将会加快机器人的学习速度,并帮助其规避潜在的危险。

试验情况

为证明新型算法的先进性,研究人员进行了一次初级阶段演示。在试验中,使用Deep TAMER算法的机器人配合人类教练的实时反馈,仅耗时15分钟就学会了一种保龄球电子游戏,而同样的游戏对于其他一些顶尖人工智能算法而言仍难以掌握。而且经过Deep TAMER训练的机器人,其击球分数甚至超过了人类教练和专业游戏玩家。

应用前景

在未来的一到两年内,研究人员将专注于探索这项最新技术的广泛适用性:例如除保龄球以外更复杂的电子游戏和其他仿真环境,从而更好地模拟在现实世界中使用机器人时可能遭遇的不同情景和状况。未来的美国陆军将是有人-无人编队联合作战、共同行动的混合组成模式。尽管作战人员和自主系统事先都会接受大量专业训练,但有人-无人编队将不可避免地在陌生环境或新环境中执行任务,例如搜索、救援和监视。Deep TAMER是研究人员设想的一系列研究的第一步,其成功将使美国陆军实现更加成熟的有人-无人编队成为可能。

美国陆军的最终目标是,研发出能够通过人类队友做出的诸如动作演示、语言指导和行为批判等多种不同样式的活动,进行快速、安全的深度学习的自主系统。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180209B16JYZ00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券