MIT开发语义解析器,使机器像儿童一样学习语言

编译:chux

出品:ATYUN订阅号

儿童通过观察他们的环境,倾听他们周围的人,以及他们所看到和听到的点之间的联系来学习语言。这也有助于儿童建立语言中的单词顺序,例如主语和动词在句子中的位置。麻省理工学院的研究人员开发了一种“语义解析器”,通过观察学习模仿儿童的语言习得过程,这可以极大地扩展计算能力。

在计算中,学习语言是句法和语义解析器的任务。这些系统是在人类注释的句子上训练的,这些句子描述了词语背后的结构和意义。解析器对于网络搜索,自然语言数据库查询以及Alexa和Siri等语音识别系统变得越来越重要。很快,它们也可能用于家庭机器人。

但是收集注释数据对于不太常见的语言来说可能是耗时且困难的。此外,人类并不总是同意注释,注释本身可能无法准确反映人们自然说话的方式。

在本周的自然语言处理经验方法会议上发表的一篇论文中,麻省理工学院的研究人员描述了一种解析器,它通过观察学习更接近地模仿儿童的语言习得过程,这可以极大地扩展解析器的能力。为了学习语言的结构,解析器观察标题视频,没有其他信息,并将单词与记录的对象和动作相关联。给定一个新句子,然后解析器可以使用它所学习的语言结构来准确预测句子的意义,而无需视频。

这种“弱监督”方法意味着它需要有限的训练数据,模仿儿童如何观察周围的世界并学习语言,而无需任何人提供直接的背景。据研究人员称,这种方法可以扩展数据类型,减少训练解析器所需的工作量。例如,一些直接注释的句子可以与许多字幕视频结合使用,这些视频更容易获得,以提高性能。

将来,解析器可用于改善人与机器人之间的自然交互。例如,配备解析器的机器人可以不断地观察其环境,以加强其对口头命令的理解,包括当口语句子不完全语法或清楚时。“人们用部分句子,连续思想和混乱的语言互相交谈。你希望家中的机器人能够适应他们特定的说话方式,并且仍然能够弄清楚他们的意思,”计算机科学与人工智能实验室(CSAIL)研究员兼中心研究员Andrei Barbu表示。

解析器还可以帮助研究人员更好地了解幼儿如何学习语言。“孩子可以从不同的方式获取冗余的补充信息,包括听父母和兄弟姐妹谈论世界,以及触觉信息和视觉信息,帮助他们了解世界,”共同作者,首席研究科学家兼CSAIL InfoLab集团负责人Boris Katz表示,“这是一个惊人的难题,处理所有这些同时感官输入。这项工作是更大的一部分,以了解这种学习如何发生。”

视觉学习器

研究人员将语义解析器和计算机视觉组件结合在一起,分别训练对象、人类和视频中的活动识别。语义解析器通常在用代码注释的句子上训练,该代码将每个单词的含义和单词之间的关系归于一致。有些接受过静止图像或计算机模拟方面的训练。

Ross表示,新的解析器是第一个使用视频进行训练的解析器。在某种程度上,视频在减少歧义方面更有用。如果解析器不确定某个句子中的动作或对象,它可以引用视频来清除事物。“暂时的成分(物体相互作用,与人交互)以及高级属性在静态图像或语言中是看不到的。”

研究人员编制了一个大约400个视频的数据集,描述了人们的许多动作,包括拾取物体或将物体放下,然后走向物体等。众包平台Mechanical Turk的参与者随后为这些视频提供了1,200个字幕。他们留出了840个视频字幕示例用于训练和调优,并使用360个示例进行测试。Barbu说,使用基于视觉的解析的一个优点是,你不需要那么多的数据,尽管你有数据,你可以扩展到巨大的数据集。

在训练中,研究人员为解析器提供了确定句子是否准确描述给定视频的目标。他们为解析器提供了视频和匹配标题。解析器将标题的可能含义提取为逻辑数学表达式。例如,句子“女人正在捡苹果”可以表示为:λxy,女人x,捡x y,苹果y。

这些表达和视频被输入到由Barbu和其他研究人员开发的称为“Sentence Tracker”的计算机视觉算法中。该算法查看每个视频帧以跟踪对象和人如何随时间变换,以确定动作是否如所描述的那样播放。通过这种方式,它确定视频的含义是否正确。

连接点

具有对象,人类和动作的最紧密匹配表示的表达式成为标题的最可能含义。最初,表达式可以指代视频中的许多不同对象和动作,但是可能含义的集合用作训练信号,其帮助解析器持续地降低可能性。“通过假设所有句子必须遵循相同的规则,它们都来自同一种语言,并且看到许多标题视频,你可以进一步缩小其含义,”Barbu说。

简而言之,解析器通过被动观察来学习:为了确定视频的标题是否为真,解析器必然必须识别标题的最高概率含义。“判断视频句子是否属于视频的唯一方法是经过中间步骤,’句子是什么意思?’ 否则,你不知道如何连接两者,我们不给系统赋予句子意义。我们说,’有一个句子和一个视频。句子必须适用于视频。找出一些使视频成为现实的中间表示。’”

训练为学习单词产生句法和语义语法。给定一个新句子,解析器不再需要视频,而是利用其语法和词汇来确定句子结构和含义。

最终,这个过程就好像孩子正在学习一样,Barbu说,“你看到周围的世界,听到人们说话,用这些方式来学习意义。有一天,我可以给你一个句子并询问它意味着什么,即使没有视觉信息,你也知道它的含义。”

“这项研究正是自然语言处理的正确方向,”布朗大学计算机科学教授Stefanie Tellex说,他专注于帮助机器人使用自然语言与人类进行交流。“为了解释扎根语言,我们需要语义表示,但在训练时将其提供是不切实际的。相反,这项工作使用标题视频中的上下文捕获组成结构的表示。这是我一直在等待的论文!”

在未来的工作中,研究人员将深入研究建模相互作用,而不仅仅是被动观察,Ross表示,“孩子们在学习时会与环境互动。我们的想法是建立一个也会使用感知来学习的模型。”

原文发布于微信公众号 - ATYUN订阅号(atyun_com)

原文发表时间:2018-11-05

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏牛客网

顺丰提前批人工智能岗技术面面经

【每日一语】人们常常会欺骗你,是为了让你明白,有时候,你唯一应该相信的人就是你自己。——《千与千寻》人们常常会欺骗你,是为了让你明白,有时候,你唯一应该相信的人...

881
来自专栏Vamei实验室

统计01:概述

作者:Vamei 出处:http://www.cnblogs.com/vamei 严禁转载。 

732
来自专栏CSDN技术头条

深度学习 vs 概率图模型 vs 逻辑学

【编者按】在上个月发表博客文章《深度学习vs机器学习vs模式识别》之后,CMU博士、MIT博士后及vision.ai联合创始人Tomasz Malisiewi...

1987
来自专栏PPV课数据科学社区

数据挖掘知识脉络与资源整理(十一)–数据质量分析

? ? 数据质量分析 1、 简介 传统意义上,数据分析分两类:EDA(Exploratory Data Analysis,探索性分析)和CDA(Confi...

3087
来自专栏AI科技大本营的专栏

AI 每周必读:The Ones

【AI100 导读】选 CNN 模型还是 RNN 模型?对于初学者来说,这是个很困难的问题。读博还是赌博?李沐写下了自己的经历,也许会有一些启发。 1. One...

2754
来自专栏大数据文摘

被眼睛欺骗?这正是你比机器高明的地方!深度学习如何处理认知错觉

1723
来自专栏CDA数据分析师

深入浅出:怎么从0开始学习大数据挖掘分析,才能成为合格的数据挖掘分析师及数据科学家

最近有很多人咨询,想学习大数据,但不知道怎么入手,从哪里开始学习,需要学习哪些东西?对于一个初学者,学习大数据挖掘分析的思路逻辑是什么?本文就梳理了如何从0开始...

2436
来自专栏人工智能头条

深度学习和拓扑数据分析的六大惊人之举

1453
来自专栏ATYUN订阅号

利用机器学习为广告生成有说服力的面孔

匹兹堡大学的研究人员最近开发了一种条件变化的自动编码器,可以为广告制作独特的面孔。他们的研究基于他们以前的工作,探索了更好地理解广告的自动化方法。

812
来自专栏新智元

最佳机器学习深度学习课程Top 7,第三名年薪已过12万美元

【新智元导读】我们经过详尽的比对,为你奉上最好的机器学习课程、最好的深度学习课程和最好的 AI 课程,涵盖了几乎所有相关的内容,包括 Python、R、深度学习...

37111

扫码关注云+社区

领取腾讯云代金券