前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >麻省理工研制出基于弱监督学习的语言系统

麻省理工研制出基于弱监督学习的语言系统

作者头像
人工智能快报
发布2018-12-24 16:13:18
3680
发布2018-12-24 16:13:18
举报
文章被收录于专栏:人工智能快报人工智能快报

麻省理工的科研人员研制出了一套基于“弱监督学习”(weakly supervised)的语言系统,可利用有限的数据进行语言学习。

儿童通过观察所处的环境、聆听周围的人群以及将所见之物与所听之事建立关联来进行语言学习。除其他好处外,这种方法还有助于儿童建立自己语言的语序,例如主语和动词在句子中所处的位置。

在计算领域,学习语言是句法分析器和语义分析器的任务。这些系统使用经过人类注释的句子进行训练,并且这些注释描述了词语背后的结构和含义。分析器对于网络搜索、自然语言数据库查询以及Alexa和Siri等语音识别系统而言变得越来越重要。很快,它们还可能会用于家庭机器人。

但是,收集注释数据对于不太常见的语言来说可能是一项耗时且困难的任务。此外,人们对于注释并不总是能够达成一致意见,且注释本身可能会无法准确反映人们自然而然的说话方式。

在2018自然语言处理实证方法大会(Empirical Methods in Natural Language Processing)上发表的一篇论文中,麻省理工学院(MIT)的研究人员介绍了一种通过观察进行学习的分析器。这种方法使得该分析器能够更加真实地模仿儿童的语言习得过程,从而极大地扩展分析器的能力。为了学习语言的结构,分析器会在没有任何其他信息的情况下观察带字幕的视频,并将单词与所记录的对象和动作关联。随后,如果为分析器提供一个新句子,分析器可在没有视频的情况下,使用所学到的语言结构知识来准确预测句子的含义。

这一“弱监督学习”(weakly supervised)方法模仿儿童观察周围世界并学习语言的方式,而无需任何人提供直接的上下文,这意味着它只需要有限的训练数据。据研究人员称,这种方法可以扩展数据类型以及减少训练分析器所需的工作量。例如,少量直接注释的句子可以与大量更容易遇到的带字幕视频相结合来改善表现。

在未来,分析器可用于改善人类与个人机器人之间的自然交互。例如,配备了分析器的机器人可以不断观察其周围环境来加强自己对口头命令的理解,包括说出来的句子不完全遵守语法或含义不完全明确的情况。“人们用切断的句子、连续的想法和混乱的语言互相交谈。而你会希望家中的机器人适应其特定说话方式…并仍然能够分辨其想要表达的含义,”该论文共同作者兼麻省理工学院计算机科学与人工智能实验室(Computer Science and Artificial Intellige nceLaboratory,CSAIL)和麦戈文脑科学研究所人脑、心智与机器研究中心(Brains,Minds, and Machines,CBMM)研究人员安德烈·巴尔布(Andrei Barbu)说道。

分析器还可以帮助研究人员更好地了解幼儿如何学习语言。“儿童可以通过包括聆听父母和兄弟姐妹谈天说地在内的不同情态获取冗余的补充性信息,以及触觉信息和视觉信息,来[帮助他或她]了解世界,”共同作者兼计算机科学与人工智能实验室信息实验小组(CSAIL InfoLab Group)首席研究科学家及负责人鲍里斯·卡茨(BorisKatz)说道。“如何处理所有这些同步的感官输入真是一个惊人的谜题。这项工作是了解这种学习如何发生的更大项目的一部分。”

该论文的共同作者包括:第一作者坎达丝·罗斯(Candace Ross),电气工程和计算机科学系及计算机科学与人工智能实验室研究生,人脑、心智与机器研究中心研究人员;叶夫根尼·伯扎克(Yevgeni Berzak),2017级博士,人脑和认知科学系计算心理语言学小组博士后;以及计算机科学与人工智能实验室研究生巴图诗蒙·延甘巴亚(Battushig Myanganbayar)。

出于其研究工作的目的,研究人员将语义分析器与计算机视觉组件结合起来,且该组件针对视频中的对象、人类和活动识别进行过训练。语义分析器通常采用经过代码注释的句子进行训练,代码将含义赋予每个单词并对单词之间的关系进行归因。部分语义分析器通过静止图像或计算机模拟进行训练。

罗斯表示,新分析器是第一个使用视频进行训练的分析器。从某种程度而言,视频在减少歧义方面更有用。例如,如果分析器对于某个句子中的动作或对象感到不确定,它可以通过参考视频来拨开迷雾。“存在时间分量,即彼此交互以及与人类交互的对象,以及在静止图像中或仅在语言中看不到的高级属性,”罗斯说道,

研究人员编制了一个包含约400个视频的数据集,这些视频描绘了人们完成许多动作的过程,其中包括拾取对象、将对象放下以及走向对象。亚马逊旗下众包平台Mechanical Turk上的参与者随后为这些视频提供了1200份字幕。研究人员使用其中的840份视频字幕示例进行训练和调整,并使用剩下的360份进行测试。使用基于视觉的分析的一大优势在于:“你不需要那么多数据。尽管如果你有[那么多数据],那么你可以扩展为更加庞大的数据集,”巴尔布说道。

在训练中,研究人员为分析器设置了确定句子是否准确描述给定视频的目标。他们为分析器提供视频和匹配的字幕。分析器将字幕的可能含义提取为逻辑数学表达式。以“The woman is picking up an apple”这个句子为例,它可以表示为:λxy.woman x, pick_up x y, apple y。

这些表达式和视频会输入到由巴尔布和其他研究人员开发的名为“Sentence Tracker”的计算机视觉算法中。该算法通过查看每个视频帧来跟踪对象和人类随时间推移的变化情况,从而确定动作是否如所描述的那样完成。通过这种方式,它可以确定含义对于视频而言是否可能为真。

表现形式与对象、人类和动作最接近的表达式会成为字幕最有可能的含义。一开始,表达式可能会指代视频中的许多不同对象和动作,但这一组可能的含义会用作训练信号来帮助分析器持续筛选可能性。“通过假设所有句子都必须遵守相同的规则以及假设它们都来自同一种语言,并在看过许多带字幕的视频后,你可以进一步缩小含义的范围,”巴尔布说道。

简而言之,分析器通过被动观察来学习:要想确定字幕对于视频而言是否为真,分析器必然需要确定具有最高可能性的字幕含义。“弄清楚某个句子对于视频而言是否为真的唯一方法是通过‘这个句子是什么意思?’这一中间步骤。否则,你不知道如何将两者关联起来,”巴尔布解释道。“我们不会为系统提供句子的含义。我们只会说,‘有一个句子和一个视频。句子必须对于视频而言为真。找出一些使其对于视频而言为真的中间表现形式。’”

训练针对分析器所学的单词生成句法和语义语法。如果为分析器提供一个新句子,它不再需要视频,而是能够利用其语法和词汇来确定句子结构和含义。

最终,这个过程会“如同你还是个孩子”一样学习,巴尔布说道。“你通过观察周围的世界并聆听人们的说话来学习其中的含义。终有一天,我可以给你一个句子并询问其含义,而你即使没有视觉表现,也能知道它的含义。”

“这项研究正是自然语言处理的正确发展方向,”布朗大学(Brown University)计算机科学专业教授斯蒂芬妮·泰勒斯(Stefanie Tellex)说道,她专注于帮助机器人使用自然语言与人类进行交流。“为了解读基础语言,我们需要语义表现形式,但在训练时提供语义表现形式是不切实际的。相反,这项工作能够使用带字幕视频的上下文来捕获组成结构的表现形式。这是我一直在等待的论文!”

在未来的工作中,研究人员想要对交互进行建模,而不仅仅是被动观察。“儿童在学习时会与环境交互。我们的想法是,建立一个也会使用感知来进行学习的模型,”罗斯说道。

这项工作部分得到了人脑、心智与机器研究中心(CBMM)、国家科学基金会(National Science Foundation)、福特基金会研究生研发奖学金(FordFoundation Graduate Research Fellowship)、丰田研究院(Toyota Research Institute)和MIT-IBM脑启发多媒体机器理解项目(MIT-IBM Brain-inspiredMultimediaMachine Comprehension)的支持。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-12-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 人工智能快报 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档