引言
本次文章将主要介绍ACL(WS)中的一篇文章,其题目为:Modeling the Acquisition of Words with Multiple Meanings。该篇文章问题的出发点是:学习单词是正常交流的基础,但是当遇到一词多义、同音多义时,机器是很难解决这个问题的。为此作者拓展了一个基于特征的计算模型,利用结构化的特征集来得到一词多义和同音多义之间的梯度差异,从而解决多重含义的问题。
论文获取方式:您可以通过题目搜索在百度学术、谷歌学术上搜索下载;还可以通过后台回复aclws1获得网盘链接以便保存下载。
注:不是作者不直接给网盘地址,而是微信文章中不让放,给您带来不便请谅解。
本文概要
1
文章概述
2
跨情景单词学习模型(NFS12)
3
结构化多特征学习模型(SMF)
4
参考文献
正文开始
1
文章概述
该文主要是根据NFS12模型[1]对其进行扩展,使其能够表示具有更多不同含义的单词学习,其中这些含义可能在不同程度共现重叠特征。文章在NFS12特征包模型中添加的关键创新点为,我们为每个可区分对象分配一组不同但重叠的特征。
该文认为模型学习单词它不是学习每个单词与每个特征的独立关联,而是不同结构的特征集的关联。 复制并比较了最近实验性多语言学习工作的输入和任务,并比较了NFS12扩展模型的性能和人类学习者的表现。
下面将主要介绍NFS12模型以及改进模型。
2
跨情景单词学习模型(NFS12)
NFS12从<话语,场景>输入对中学习,其模拟语言学习者在语言输入中听到的内容:即话语,以及与非语言上下文(场景)相对应的特征。例如,学习者可能首先遇到单词cap,伴随着表示父母要求孩子在夏日要带一顶帽子。如下:
话语=“戴一顶帽子”
特征={太阳、阳光、服装、面料、盖住、...}
每个话语的特征对应于消息理解和场景见证的所有方面。 在某种意义上,这是一个特征包,即没有限制其来指示哪些特征代表视觉世界中的哪个对象。该模型通过引导过程学习每个特征f和每个单词w之间的概率关联。 该模型将所有Pt-1(f | w)初始化为所有单词和特征的均匀分布。 在时间t,模型学习w和f的当前关联关系,与他们先前学习的概率成比例
其中Pt-1(f | w)是f在前一学习步骤中成为w含义一部分的概率。 如果f与话语中的某个其他单词的关联特别高,则f与w的关联将相应地较低。 然后使用新方法更新平滑版本中所有观察到的特征的概率:
其中F是迄今为止观察到的所有特征的集合。 因此,这些关联是输入中的出现与自上次出现以来所经过的时间出现求和的比值。
每个学习步骤都会更新关联,以说明过去的经验。 分母表示随着时间的推移关联逐渐衰减, d与关联强度成比例,使得更强的关联将减弱,即使自从遇到w以来已经过了大量时间。
3
结构化多特征学习模型(SMF)
SMF是基于NFS12模型的拓展,它主要是建立每个单词与其对照场景(而不是特征)中潜在参照物学习特征之间的关联。例如,如果场景涉及两个潜在的参照物(太阳和棒球帽),则具有以下特征集合将成为与话语中的单词相关联的候选者。
根据原始NFS12模型,文章通过修改学习过程来估计单词w和一组特征s的关联。
因此,一组特征s基本上代表了参考词的意义。 概率Pt(s | w)是从先前出现的单词估计的,其中每个集合的概率与特征的重叠程度成正比,而不是直接观察特定组。 使用Jaccard相似性系数计算两组sf和sj之间的重叠程度,该系数是两组中所有特征的两组共享特征的比值。
文章对NFS12的修改为:利用连贯的特征集而不是独立的特征 捕获关于人们如何学习参考词的关键。 该模型假设人们从连贯的范例中学习,而不是学习单词和个人特征(例如,学习帽子和织物)之间的关联程度,独立于帽子和衣服之间的关联。
学习者最终学习一组特征集,这些特征集之间具有不同程度的关联强度。织物和帽之间的关联只有在考虑到其他特征后才能确定。在这种情况下,织物在有特征、衣服的情况下与帽子有更强烈的关联,如果特征、瓶子和衣服被包括在内,则与帽子的关联较小。
最终的实验结果如下图所示,如果要看详细的分析,您可以下载原文看一下。
4
参考文献
[1]Proceedings of the 3rd Workshop on Cognitive Modeling and Computational Linguistics[C]// Workshop on Cognitive Modeling & Computational Linguistics. Association for Computational Linguistics, 2012.