ACL 2018 | 百度提出交互式语言学习新方法:让智能体具备单次概念学习能力

选自arXiv

作者:Haichao Zhang等

机器之心编译

参与:王淑婷、路

近日,百度的研究者提出了一种交互式语言学习新方法,可通过会话游戏的方式帮助智能体学习语言,并使其具备单次概念学习的能力。目前该研究的论文已被 ACL 2018 大会接收。

语言是人类最自然的交流方式之一,通常被视为人类智能的基础。因此,对智能体来说,能够使用语言与人类进行交流至关重要。深度神经网络监督训练虽然在语言习得方面取得了令人欣慰的进展,但其在获取训练数据统计信息方面还存在问题。并且,它对新场景缺乏适应性,难以在避免低效的重新训练和灾难性遗忘的情况下灵活地获取新知识。此外,深度神经网络模型的监督训练需要大量的训练样本,而许多有趣的应用需要从少量数据中快速学习,这对监督训练来说是一个更大的挑战。

相比之下,人类的学习方式与监督设置截然不同(Skinner, 1957; Kuhl, 2004)。首先,人类在现实世界中采取行动,并从其行动的结果中吸取教训(Skinner, 1957; Kuhl, 2004; Petursdottir and Mellor, 2016)。对于运动等机械性动作,结果主要遵循几何和机械原理;对于语言,人类通过说话的方式来实现,其结果通常表现为来自会话伙伴(即教师)的口头回应和其它行为反馈(例如点头)。这些类型的反馈通常包含关于如何在随后的会话中提高语言技能的信息信号,在人类的语言习得过程中发挥了重要作用(Kuhl, 2004; Petursdottir and Mellor, 2016)。其次,人类显示出从少量数据中学习新概念的显著能力(Borovsky等,2003)。儿童仅从一个样本中似乎就能够做出推论,并在概念之间划出合理的界限,这足以证明人类的单次学习能力(Lake 等,2011 年)。

人类的语言习得过程和单次学习能力作为人类智能的一种表现形式是非常引人注目的,且对设计新的计算语言学习环境和算法具有启发意义。本论文采用会话作为语言学习交互环境(Skinner,1957)和获取新知识的自然接口(Baker 等,2002年)。论文作者提出了一种方法用于单次概念学习能力的交互式语言习得。该方法允许智能体从零开始学习基础语言,获得主动搜索和记忆新目标信息的可迁移技能,并仅仅通过与教师的会话交互来提高单次学习能力。

图 1:交互式语言和单次概念学习。

在 S_1 阶段,教师可以提问、回答学习者的问题、做出陈述或不说话。教师还根据学习者的回应提供奖励作为回馈。学习者在理解教师的句子和通过解释器和说话人作出回应之间交替进行。图左:一开始,学习者几乎说不出任何有意义的话。图中:接着,它可以产生有意义的交互回应。图右:经过训练,当遇到樱桃图像时(学习者在训练过程中未曾见过,因此樱桃对它来说是一个新事物),学习者会就此提问(「这是什么」),并且在被教导过一次之后能够对另一个樱桃的实例做出正确的表述(「这是樱桃」)。

表 1:教师句子的语法。

图 2:网络结构。

(a) 整体结构图示。在每个时间步中,学习者使用解释器模块对教师的句子进行编码。视觉感知也被编码并用作从外部存储器检索信息的密钥。解释器 RNN 的最后状态将通过控制器传递。控制器的输出将被添加到输入并用作说话人 RNN 的初始状态。解释器 RNN 将利用从感知输入提取的重要性(用透明度来表示)加权信息来更新外部存储器。「mix」表示词嵌入向量的混合。(b)解释器 RNN 的结构(顶部)和说话人 RNN 的结构 (底部)。解释器 RNN 和说话人 RNN 共享参数。

图3:没有图像变化的单词级任务训练期间的奖励演变。

图4:没有图像变化的情况下单词级任务的测试性能。在动物数据集上训练模型,在水果数据集上进行测试。

图5:在动物数据集上以图像变化率 0.5(实线)和没有图像变化(虚线)训练出的模型在不同测试图像变化率下,在水果数据集上执行单词级任务的测试成功率和奖励。

图7:在新类别上提出方法的示例结果。学习者可以询问关于新类别的信息,并通过单词级注意力 η 和内容重要性 gmem,使用解释器从教师的句子中提取有用的信息。说话人通过融合门(fusion gate)g 在 RNN(小 g )和外部存储器(大 g )的信号之间自如切换,以生成句子回应。

图8:具有图像变化(变化率 = 0.5)句子级任务的测试性能。

表4:不同方法的对话实例。

论文:Interactive Language Acquisition with One-shot Visual Concept Learning through a Conversational Game

论文链接:https://arxiv.org/abs/1805.00462

摘要:构建能够与人类进行自然语言交流、学习人类的智能体具有重要价值。监督语言学习主要受获取训练数据统计信息能力的限制,并且难以适应新场景,也难以在避免低效的重新训练和灾难性遗忘的情况下灵活地获取新知识。我们强调会话互动是语言习得和获取新知识的天然接口,并提出了一种通过互动会话游戏共同模仿和强化真实语言学习的方法。使用这种方法训练的智能体可以通过提出关于新目标的问题来主动获取信息,并且通过单次学习即可在随后的对话中使用刚刚学到的知识。与其他方法进行比较的结果验证了该方法的有效性。

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2018-05-10

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏磐创AI技术团队的专栏

热点 | github近期热点项目汇总

【磐创AI导读】:我们总结了过去一年近8000个开源机器学习项目,从中选择了前30个最热点的项目推荐给大家。想要获取更多的机器学习、深度学习资源。欢迎大家点击上...

1161
来自专栏ATYUN订阅号

NVIDIA新研究:AI只通过噪点图像的训练就可以修复照片

如果在低光照下拍摄的照片,噪音和伪影可以自动消除,那将会如何;如果你的照片库中有颗粒状或像素化的图像呢,你会想要修复它们吗?现在一种基于深度学习的方法已经学会...

1143
来自专栏大数据挖掘DT机器学习

飞林沙:商品推荐算法&推荐解释

这是今天看到的一篇蛮有新意的讲稿,由于不是一篇完整的论文,所以理解起来稍微有些困难,就顺着写个笔记,仅供参考。 ? 在这篇文章中,我分成两部分,我们先顺着作者的...

5629
来自专栏机器之心

Uber与斯坦福大学开源深度概率编程语言Pyro:基于PyTorch

38911
来自专栏智能算法

机器视觉算法(系列一)--机器视觉简短入门

机器视觉是人工智能正在快速发展的一个分支。机器视觉作为生产过程中关键技术之一,在机器或者生产线上,机器视觉可以检测产品质量以便将不合格的产品剔除,或者指导机器人...

3838
来自专栏专知

【斯坦福大学吴恩达博士生Ziang Xie】深度文本生成最佳实战指南(附指南下载)

【导读】人们期待未来有一天计算机能够像人类一样会写作,能够撰写出高质量的自然语言文本。文本自动生成就是实现这一目的的关键技术。按照不同的输入划分,文本自动生成可...

1K7
来自专栏新智元

【IEEE Spectrum】神经网络视觉分类算法的意外弱点

【新智元导读】以往的对抗攻击需要进行复杂的数据处理,但最近华盛顿大学、密歇根大学、石溪大学和加州大学伯克利分校的一组研究人员发表了一篇文章,表明在物理世界中进行...

33813
来自专栏量子位

用深度学习拯救手抖星人!Facebook详解全景照片修复技巧

陈桦 编译整理 量子位 报道 | 公众号 QbitAI 拍全景照片,重要的是手要稳,手要稳,手要稳……或者支个三角架。 ? 上面视频中这位小姐姐的水平,可以说是...

3397
来自专栏智能算法

蚁群算法(独辟蹊径的进化算法)

1. 算法背景——蚁群的自组织行为特征 高度结构化的组织——虽然蚂蚁的个体行为极其简单,但由个体组成的蚁群却构成高度结构化的社会组织,蚂蚁社会的成员有分...

3419
来自专栏机器学习人工学weekly

机器学习人工学weekly-2018/1/21

1. Google Brain发布2017年总结贴,感觉今年vision方面已经没什么进展了,AutoML还是优先级最高的 链接:https://rese...

3797

扫码关注云+社区