效仿婴儿学习语言,MIT打造了一个具有观察力的AI模型

Lentil| 撰文

几乎每种动物都有自己的沟通方式,我们也是如此,在长时间积累与学习后,才形成了多种多样精密复杂的人类语言。未来的AI将拥有像人一样的思想和情感,而现在的它们还处在小孩子牙牙学语的阶段,在学会了人类的语言后,才能更好地了解我们的需求并提供帮助。

而儿童学习语言的过程是通过观察周围环境以及聆听周围人说话,找出视觉与听觉信息之间的关联。这一过程能帮他们掌握语言的词汇顺序,比如句子结构中主语和动词的位置。

而在计算机领域,语言学习是语法和语义分析器需要执行的任务。训练它们需要使用使用人工标注的句子,这些标注提供了句子结构和词语含义的信息。语法分析器对于网页搜索、自然语言数据库查询、Alexa和Siri等语言识别系统越来越重要,很快,这项技术可能也会被用在家用机器人身上。

但是对于一些小语种来说,收集标注数据费时又费力。甚至,不同的标注者有不同的想法,而且人工标注的结果还不一定都能准确反映人们自然说话的方式。

本周,在比利时布鲁塞尔举行的2018年自然语言处理实证方法大会(EMNLP)上,MIT科研人员展示了一篇新的研究论文,论文描述了一款语法分析器,它通过观察来模拟儿童语言学习过程,能力得到了大幅度加强。在学习语言结构的过程中,科研人员会让它观察加了字幕的视频(不提供其他额外信息),字幕中的文字与视频中记录的物品与行为互相关联。之后科研人员会给它一个新的句子,让它在没有视频辅助的情况下,通过学到的语言结构准确预测句子的意思。

通过这种“弱指导”的方式(不需要太多训练数据),语法分析器能够模仿儿童观察周围环境学习语言,不需要额外的直接语境信息。MIT科研人员称,这种方法不仅能够扩充训练数据的类型,还能够降低训练语法分析器需要投入的精力。用几个直接标注的句子,加上多只配有字幕的视频就可以提高分析器的性能。

在将来,这款语法分析器可以被用来提高人类与机器人之间的自然交互。比如,使用它的机器人,将能够不断观察周边环境强化对语音命令的理解,包括在口语不符合语法规律或者不清楚的时候。

论文合著Andrei Barbu表示:“人们日常对话的时候会一句话说一半,或者内容都是流水账、难以理解的话。家用机器人最好是不仅能适应主人的说话方式,还能了解他们的用意。”据悉,Andrei Barbu是MIT计算机科学与人工智能实验室(CSAIL)与麦戈文研究所大脑、心智和机器中心(CBMM)的一名科研人员。

此外,这款语法分析器还能够帮助科研人员理解小孩子学习语言的过程。CSAIL InfoLab小组组长兼首席研究人员与论文合著Boris Katz表示:“孩子能接触到各种形式的大量间接信息,包括父母与兄弟姐妹谈论新闻时产生的听觉信息,还有触觉信息和视觉信息,这些都能帮助孩子了解这个世界。如何同时处理这么多感知信息,是一个有趣的谜题,训练语法分析器也是为了帮助理解这种学习的方式。”

视觉与文字结合的学习

在这项研究中,科研人员使用了语义分析器与一款通过视频训练,能够识别物体、人类与行为的计算机视觉元件。通常训练语义分析器会使用以代码标注的句子,这些代码包含词语含义与关系,有的还会使用静态图像或者计算机模拟图来训练。

论文第一作者Candace Ross表示,这款新的语法分析器是首次使用视频来训练的。视频在某种程度上更直观,可减少歧义。假设语法分析器对于句子中的某种行为或者物体不确定,它能够参考视频来消除疑虑。Ross表示:“在静止的图像或者文字中,并不能看出一些时间的变化、物体之间或与人的交互等元素。”

据悉,这组科研人员编辑了一个包含约400只视频的数据集,视频内容是人类做出一些行为,包括拿起或放下一样东西,和朝着某样东西走去。随后众包平台Mechanical Turk的参与者们为这些视频提供了1200份字幕。其中840份视频字幕用于训练与微调,剩下的360用于检测。Baru认为,使用基于视觉的语法分析器的好处在于“不需要那么多数据,但是如果有大量数据,便可以扩充数据集内容。”

在训练过程中,科研人员为语法分析器设定的目标是判断一段话是否准确形容了视频中的内容。他们会为分析器提供与字幕匹配的视频,然后它将字幕的大意以逻辑数学表达式来提取。打个比方,“那女人正在摘苹果”可能会被分析器以λxy. woman(女人) x, pick_up(摘) x y, apple(苹果) y的形式表达。

之后数学表达式与视频将被导入基于计算机视觉的算法Sentence Tracker,这项算法由Barbu等科研人员研发。它会分析视频的每一帧,追踪物体与人随时间的变化,判定视频中的行为是否与文字描述的一致。

匹配视频与字幕

与视频中的物体、人和行为最接近的表达式,将最有可能代表字幕的含义。一开始,这些表达方式可能指的是视频中许多不同的物体和行为,但是它们可作为一种训练序列,帮助语法训练器持续筛选正确答案。Baru表示:“通过假定所有的文字必须遵循相同的规则、来自相同的语言,那么在观看过许多带字幕视频后,它能够进一步筛选正确的意思。”

简单来讲,这款语法分析器通过被动观察来学习:为了判定字幕是否代表了视频的内容,它必须识别字幕最有可能的含义。Baru解释:“唯一能判定字幕是否与视频匹配的方式,就是去探索这句话的意思,否则,就不会知道如何将视频与字幕关联。我们不会为分析器提供字幕的含义信息,只是让分析器了解,这里有一段视频和字幕,二者匹配,但是你需要找出一个中间媒介来解释字幕的意思,才能确定(有点“换个说法”的意思)。”

这场训练让分析器学会了语法与语义的规则,在看到个新句子的时候,它不在需要视频,只需要分析句子语法、参考字典就能够推敲出句子结构和含义。

布朗大学的一名计算机科学教授Stefanie Tellex表示:“这项研究正是自然语言处理该走的发展方向,要想理解基础语言,必须学会用语义来表述,但是训练的时候人工标注语义操作起来并不实际。这项研究使用带字幕的视频来训练语法分析器识别语言结构,正是我期待的那样。”据悉,Tellex在大学的研究方向是帮助机器人使用自然语言与人类交流。

未来,这些科研人员或许会在被动观察基础上探索交互模型。Ross表示:“儿童一边与环境交互一边学习,我们的学习模型也是模仿这种用感知学习的方式。”本文系青亭网翻译自:MIT News

(END)

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181101A1J0XN00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券

年度创作总结 领取年终奖励