模拟电话问路—Facebook用一对机器人进行导航训练

编译:chux

出品:ATYUN订阅号

Facebook人工智能研究人员创建了一对人工智能系统,能够使用360度图像,自然语言以及包含银行和餐馆等当地标志的地图在纽约市的街道上进行导航。名为Talk the Walk的研究任务和数据集是开源的,同时也开放了在Arxiv上发布的现实世界训练的初步结果。这项研究包括人工智能系统如何定位自己并比人类更好地传达观测数据。

两个AI系统经过训练,可以完成两项具体任务:游客机器人必须向导游机器人描述其周围环境,然后导游机器人根据地图的描述并使用自然语言来确定其位置,成功率达到88%。

将游客机器人扔到纽约市的一个随机街角,再由导游机器人将他们引导到2D地图上的某个位置。导游机器人知道地图和目标位置但不知道游客机器人在哪。

“这与其他数据集区别开来的是我们有实际的自然语言注释,所以它不是其他人都尝试过的某种人工模板化的语言。这是第一个真实视觉感知的真实语言,”Facebook AI研究科学家Douwe Kiela表示。

Talk the Walk涉及两个人工智能系统,包括曼哈顿的地狱厨房,东村,金融区和上东区以及布鲁克林的威廉斯堡附近。

更复杂的是,每一个社区都遵循一个网格系统,所以地图没有独特的品质。一个有16个不同街角的两个街区的半径看起来很小;然而,最初的研究范围,但之后必须减少,因为事实证明,人类很难完成。

Kiela指出,“这是一项重要的任务,因为它汇集了许多不同的挑战,如果我们想要在人工智能研究方面取得进展,我们需要解决这些挑战,例如逼真的360度视觉感知,基于地图的导航,视觉推理,通过对话进行的自然语言交流,所有这些对于解决AI问题都很重要。而这项工作的目的是试图将所有这些问题结合起来,形成一种全面的,无所不包的解决方案。”

虽然360度视频和地图是训练系统输入的一部分,但任务和基准数据集主要面向对话AI推进,工作集中在基础,使用多模式方法开发自然语言的实践理解。

为了达到彼此需要成功的沟通,无论是游客告诉导游哪里有自然语言和必须解释旅游智能体产生的文字的指南。

Kiela表示,“这种研究的长期愿景是提高对自然语言的理解,因此当然这对人类来说很有意义。基本上,如果我们能够实现代理人真正理解自然语言的人工智能,那么对于AI来说这将是一个关键时刻,我真的非常关心这个长期愿景,首先是我们如何才能达到这种语言理解,我们怎样才能让AI真正拥有这种迄今为止一直缺失的常识。”

一种名为Masked Attention for Spatial Convolution(MASC)的注意机制被用于缩小智能体的焦点。它基本上支持代理运行的这些语言模型,以快速解析关键字在响应中的内容。Facebook表示,利用该流程可以使正在测试的结果的准确性翻倍。

生成的任务和数据集可作为基准。这项工作是开源的,AI社区成员可以利用它们推进机器对人类沟通技巧的理解。

“这是一项艰巨的挑战,这也是我们开源的原因之一,总的来说,我们应该在人工智能研究中挑战更多的困难,以及社区难以解决的问题,认清我们目前可以做的事情的局限性。因此,开源的事情对我们很重要。”

论文:arxiv.org/abs/1807.03367

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180712B1LK2N00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券