专家观点:从语言到行动——面向与真实机器人的交互式任务学习

编者按:

2018年7月13-19日,备受关注的人工智能顶级国际会议IJCAI(International Joint Conference onArtificial Intelligence,人工智能国际联合大会)于瑞典首都斯德哥尔摩举行。本届IJCAI(International Joint Conference on ArtificialIntelligence,人工智能国际联合大会)是与ECAI(European Conference on Artificial Intelligence,人工智能欧洲会议)合办的,名称也就随之成为IJCAI-ECAI 2018。

今年的IJCAI会议上来自于密歇根大学计算机科学与工程学院Joyce Chai教授在会上发表了以《Language to Action: towards Interactive Task Learning with PhysicalAgents》(从语言到行动:面向与真实机器人的交互式任务学习)为主题的演讲,引起了人们的广泛关注。本文将对JoyceChai的演讲进行简要介绍。

摘要:

语言交流在人类学习和知识获取方面起到了重要的作用。随着新一代感知机器人的出现,如何使得这些机器人能够直接从人类伙伴中学习知识变得越来越重要。交互式任务学习(Interactive Task Learning, ITL)是指让智能体通过对环境的感知、与其他智能体的交流等方式来吸取经验知识从而提高智能体完成特定任务的性能。本文简要介绍人类如何利用语言交流和动作示范与机器人进行交互式任务学习,并讨论在交互式任务学习中非常重要的语义落地和交流落地的研究中所面临的挑战与机遇,进一步强调了常识知识的重要性,特别是语义到感知和动作的落地过程中的最基本的因果知识的重要性。

1

交互式任务学习

2

语义落地和交流落地

3

动词因果知识

‍‍‍‍

01交互式任务学习

人类可以利用语言通过各种方式来教机器人学习新的任务,如图1a中人类通过”讲述”、”示范”制作茶的过程,机器人通过观察来学习制作茶,图1b中机器人通过人类的引导或验证来学习(图1b)制作茶。在学习过程中,机器人可以感知到环境是如何变化的(图1c,YOLO)。机器人也可以通过往返询问的形式来获取任务以及与任务有关的知识。

图2a为人类教机器人如何制作smoothie的对话。在对话过程中,机器人逐渐形成了一个机器所理解的任务树(图2b)。任务树可以通过语法、分层任务学习等方式来获得。整体的任务可以分解为一些子任务,子任务又可以分解为可以原子任务,原子任务是机器人可以感知或执行的任务。如果一个机器人具备实现底层操作的能力,则机器人就可以规划和执行学习到的任务。

02语义落地和交流落地

建立交互式任务学习面临很多的困难,如图3所示,人类和机器人出现在共享的环境中。他们都能够感知环境并且能够执行动作改变环境,但人和机器人在感知、工作和推理方面的能力是不匹配的,而且人和机器人对环境的理解不在一个水平上。这些问题使得人和机器人缺乏共同的信息表征,从而导致人机交互式学习变得非常困难。人类和机器人需要共同努力来谋求对任务结构的联合表征。例如人类和机器人在交流过程中不仅需要记录彼此的知识、信念和意图还要记录彼此的能力和限制。在这个过程中,机器人获取与任务有关的知识和任务结构来丰富自己的知识库,同时更新自己对环境的表征。因此交互式任务学习不仅仅是一个获取落地的任务结构的过程,它需要学习新的单词的意义,语言结构,获取任务相关的知识和共有的知识。

在交互式任务学习过程中,一个中心任务就是落地,包括语义落地和交互落地。

语义落地:将语义与机器人的对环境的感知或动作的关联起来

交互落地: 使得交流的双方达成共识,形成相互认可的知识、信念和假设等。交互落地是双方实现任务共同表征的关键。

2.1 语义落地

为使得机器人能够理解人类语言以及基于人类语言实现某种动作。单词、词组和语调的意义需要与机器人的传感器相结合来实现感知环境或者动作执行。

语言学中,通常一个动词词组分为执行人(agent)、被执行人(patient),工具(instrument)等等。在图2a中,动词cut的被执行人为”strawberries”,动词put的被执行人为“strawberries”,动作目的地为”the cutting board”。机器人首先需要通过语法知识识别动作词组中的各种角色,然后将其映射到实际环境中。仅仅将动作的参数进行映射是不足以执行特定动作的,通常机器人的动作是由一系列的基础性动作组成,因此需要通过与人类的交互对高级别的动作进行分解,特别是当动作失败时,通过人类的反馈来更新分解模型。

2.2 交互落地

交互的目的在于使得交流的双方能够实现公共通信。如图 3所示,当人类和机器人的对环境、动作的表征不匹配时,会使得人机难以通信。为了实现人类和机器人的能够通信,可以通过不断调整两者之间对共享环境认知的差距。说话者可以重复和增量式的产生语言确保听者能够按照正确的方式执行。同时,听者可以提供即时的反馈来使得说话者不断改变语言。人和机器交流过程中一个关键的挑战是假定。人类与人类之间交流是建立在大量的背景知识和对世界的理解上的。然而机器人是不具备这种假定知识的。为了能够使得交互落地,一个重要的方法是使得机器人具备获取常识的能力,特别是动作因果知识的能力。

03动词因果知识

语言学中动词分为方法动词和结果动词,方法动词表示执行一个动作的方式,而结果动词表示执行一个动作会带来的状态如(empty, chop, open等)。尽管方式动作在交互任务学习中担任非常重要的角色,但Joyce Chai课题组的主要工作放在了状态动作的因果知识获取方面。

如图4所示,因果知识的表示用action和effect之间的映射来表示。其中action是一个动名词(动作以及动作的对象),effect可以用各种各样的方式表示,例如用实体维度、尺寸的变化来表示。不同的effect表示可以应用到不同的任务中。符号化的action和effect与实体动作和效果结合能够促进人类和智能的交互。当动作产生了效果,因果模型就会为机器人提供基本的知识。基于这种因果知识,机器人就可以针对给定的状态来选择可能导致这种状态的动作。

因果知识首先通过集体智慧来获得一个初始的种子知识库,当智能体部署以后,当它遇到从未遇到的动词或动词,可以通过集体智慧、网络数据、人类伙伴获得因果知识。

当人类听到“pick up/take/put something”的时候,人类就会预知某个东西的位置要发生变化。当机器人具备类似的因果知识,则机器人也可以预知将要发生的事情,从而有针对性的对环境进行感知或执行底层的动作。

语言交流提供了一条有效和自然的方法让机器人学习新的任务和与任务有关的知识。本文中介绍的交互式任务学习中的方法以及遇到的挑战仅仅是此领域的冰山一角。共性知识推理、知识获取、分享、可解释性AI以及人机合作等仍面临巨大的挑战。自然语言处理、视觉处理、认知模型、机器学习等领域的发展为实现交互式任务学习提供了非常好的发展机遇。

关注我们:

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180807G0YVMG00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码关注腾讯云开发者

领取腾讯云代金券