专栏首页深度学习自然语言处理NAACL 2019 | ​注意力模仿:通过关注上下文来更好地嵌入单词

NAACL 2019 | ​注意力模仿:通过关注上下文来更好地嵌入单词

作者 | 梁夏

编辑 | 唐里

下面要介绍的论文选自NAACL2019,

论文标题:Attentive Mimicking: Better Word Embeddings by Attending to Informative Contexts 论文地址:https://arxiv.org/abs/1904.01617

在稀疏上下文信息的情况下,很难得到较高质量的低频单词嵌入,“模仿”被认为是一种可行的解决方案:通过给定标准算法的词嵌入,首先训练模型出现频次高的单词的嵌入,然后再计算低频单词的词嵌入。在本文中,我们引入了注意模仿模型,该模型不仅仅能够可以体现单词的表面形式,同样还可以访问所有可用的上下文,并学会使用最有用和最可靠的上下文来计算词嵌入。在对四项任务评估中,我们发现对于低频和中频单词,注意力模仿比以前的工作更出色。因此,注意力模仿可以改进词汇中大部分包括中频词的嵌入。

1. 研究背景

词嵌入在自然语言处理(NLP)中取得了巨大的性能提升。然而,嵌入方法通常需要对单词进行多次观察才能为其学习到更好的表示形式。克服这种限制并改进低频单词的嵌入的一个方法是将表层信息纳入学习范围。这里可以采取一步或者两步的方法来解决,首先,在单词级别上训练嵌入模型,然后使用表层信息对词嵌入要么微调,要么重新计算。后者可以通过训练模型来实现,复制(或模仿)原始嵌入。然而,这些方法仅在单词的含义至少可部分根据其形式来预测时才有效。

一个密切相关的研究路上是新词嵌入,目标是从小部分单词观察中获取以前未出现过的单词嵌入。尽管大多数现代方法专门使用上下文信息用于此任务。最近介绍了形式-上下文模型,并表明从表面形式和上下文进行联合学习可带来更好的表现。

本文中讨论的关键在于,通常一个词的上下文中只有很少一部分能提供关于其含义的有价值的信息。然而,当前的技术水平将所有的上下文视为相同作用。我们通过引入一种更智能的机制来解决这个问题:我们不是使用所有的上下文,而是通过关注来选择一个信息更为丰富的上下文的子集进行学习。这个机制基于以下观察:在许多情况下,给定单词的可靠上下文往往彼此相似。我们将此结构称为注意力模仿(AM)。

我们的贡献如下:(i)介绍了注意力模仿模型。通过关注最有用的上下文,它可以为低频和中频单词生成高质量的嵌入。(ii)我们提出了一种基于VecMap的新式评估方法,使我们能够轻松评估低频和中频单词的嵌入质量。(iii)我们发现,注意力的模仿可以改善各种数据集上的单词嵌入性能。

2. 相关工作

训练表面形态模型以模拟词嵌入的方法包括基于词素和字符级别,在微调方面,可用通过引入一个高斯模型,该模型将词形态信息整合到单词嵌入中。使用一组特定语言的规则重新计算嵌入。直接将表面形态信息集成到嵌入学习中的模型包括fastText、LexVec和Charagram。虽然许多学习嵌入新词的方法利用上下文信息的同时也使用了注意力机制。但他们的注意力是在上下文内(选择单词),而不是横跨上下文(选择上下文)。他们的注意力仅限于单词类型和单词之间的距离,而不是我们注意力模仿模型中可用的更复杂的因素,例如与单词表面形态信息的交互。

3. 注意力模仿

3.1 上下文模型

在上下文模型(FAM)中需要一个维度为d的嵌入空间,将高质量的嵌入向量

分配给高频单词,给定一个低频或者新单词w以及该词出现的一组上下文c,FCM模型可以在给定的向量空间中为单词w计算出一个合适的嵌入

这是通过计算出两个不同的嵌入实现的,其中一种嵌入仅使用表面形态信息,而另一个则是使用了上下文信息。表面形态嵌入是通过对模型学习的一组n-gram嵌入进行平均而获得的;上下文嵌入是通过对c上下文中单词的所有嵌入求平均值而获得的。然后使用权重系数α和大小为d × d的矩阵A组合这两个嵌入,从而形成形态上下文嵌入。

其中加权系数α是两个嵌入的系数,其模型为:

其中

b ∈ R是可学习参数,σ表示为sigmoid函数。

3.2 上下文注意力机制

FCM同样关注一个词的所有上下文,但通常只有很少的上下文实际上适合推断某个单词的含义。引入注意力模仿(AM)来解决这个问题:我们允许模型根据上下文的"可靠性"的度量来为上下文分配不同的权重。为此令C = {C1,...,Cm},其中每个Ci是单词组。我们将FCM的上下文嵌入替换为加权嵌入

其中

是Ci 中单词嵌入的平均值,α则是衡量上下文的可靠性。为了获得有意义的可靠性衡量标准,关键在于可靠的上下文通常与许多其他上下文表达一致。

我们考虑一个词w,其中w的十分之六的上下文中包含涉及体育的单词,由于这种高度相关的上下文,因此可以合理地假设与w来自同一域,同时,与体育无关的剩下的十分之四的上下文信息较少。我们将两个上下文的相似性定义为:

其中

是一个可学习的参数,同时我们将上下文的可靠性定义为:

其中

是一个归一化参数,确保权值之和为1,该模型通过从大型语料库中随机抽取单词w和上下文C来训练模型并模仿w的原始嵌入,即是最小化原始嵌入和v(w,C)的平方距离。

4.实验

在我们的实验中,我们遵循维基百科语料库(WWC)的设置并使用它来训练所有的嵌入模型。为了获取FCM和AM的训练实例(w,c),我们根据WWC的频率对单词和上下文进行采样,仅使用至少出现100次的单词。我们使用Gensim中的skipgram嵌入训练FCM和AM。

我们的实验设置在两个方面与Schickand Schutze (2019)不同

(1)我们没有使用固定数量的上下文表示C,而是随机采样1到64个上下文

(2)我们将训练轮数固定为5轮

对于第一个不同,我们希望模型在少数可用上下文以及在大量可用上下文两种情况下都能够生成高质量的嵌入,对于第二个固定轮数仅仅是因为我们的评估函数没有针对训练轮数进行优化。

为了更好的评估模型,我们应用了一种新的内在评估方法,该方法通过将嵌入空间转换为公共空间来对其进行比较(第4.1节)。我们还将在三个单词级下游任务(第4.2节,第4.3节,第4.4节)中测试模型,以证明其通用性。

4.1 Vecmap

我们介绍了一种新颖的评估方法,该方法通过将WWC中的常用词降采样为固定的出现次数来显式评估低频和中频词的嵌入。然后,我们将从原始语料库获得的skipgram嵌入与通过在降采样语料库上训练的某种模型学习的嵌入进行比较。使用VecMap将两个嵌入空间转换为一个公共空间, 我们提供除降采样词外的所有词作为映射字典。从直觉上讲,模型从少量观察值推断嵌入的效果越好,其嵌入与该公共空间中的嵌入的相似性就越高。因此,我们通过计算模型嵌入和skipgram嵌入之间的平均余弦相似度来衡量模型的质量。作为基线, 我们在缩小样本的语料库上训练skipgram和fastText。然后我们在skipgram上训练Mimick、FCM和AM。

我们还尝试了一种变体,将降采样后的单词放入训练集中,这样一来,该模型就可用完全从无到有地学习这些单词,而且还可以利用他们的原始嵌入。因此我们希望该变体仅在单词不太稀疏的情况下才有用,即其原始嵌入已经具有不错的性能。表1显示了对于频次低于32的单词,FCMand AM的表现比所有基线都要好得多,而主要关注语法信息的Mimick的表现则相对较差。在给定四个或者更多上下文的情况下。AM给FCM带来了的持续的提升。在训练过程中包括降采样单词的变体在32次或更多次观察中仍然表现出胜过skipgram,但对于不那么频繁的单词,其表现却比默认模型差。

4.2 情感词典

我们集成词汇词典和NRC情感词典,得到具有二元情感标签的单词训练集。在这些数据的基础上,训练了一个基于嵌入的logistic回归模型来对单词进行分类。在评估中,我们使用了SemEval2015Task 10E,其中0代表负面情感,1代表正面情感。并且使用斯皮尔曼相关系数来衡量相似度。

我们在skipgram 和fastText词嵌入中训练逻辑回归模型,并且使用模仿模型计算出的嵌入来替换skipgram嵌入。表2显示,对于低频和中频词,AM再次优于所有其他模型。

4.3 实体输入

4.4 Chimeras 数据

Chimeras(CHIMERA)数据集由成对单词和常规单词对的相似度得分组成。CHIMERA为每个虚构词仅提供六个上下文,因此对于评估我们的模型不是理想的。尽管如此,我们仍然可以使用它来分析FCM(无注意)和AM(有注意)的区别。由于虚构单词的表面形式是随机构建的,因此我们将自己局限于FCM和AM的上下文部分(称为FCM-ctx和AM-ctx)。使用Herbelot和Baroni(2017)的测试集,并使用FCM-ctx和AM-ctx将给定的相似度得分与相应单词嵌入的余弦相似度进行比较,以获取虚构单词的嵌入。表4给出了我们模型和各种基线的斯皮尔曼系数;我们没有添加Mimick的结果,因为它对新颖单词的结果完全基于其表面形式。虽然AM在2-4个句子中的表现比以前的方法差,但与目前发布的6个句子的最佳结果相比,它有了很大的提高。同时,上下文关注始终对于结果有所提高:无论上下文数量如何,AM-ctx的性能都优于FCM-ctx。

尽管在有许多可用上下文的情况下上下文注意的效果更加明显,但我们仍对CHIMERA的一个示例性实例进行定量分析,以更好地了解AM。我们考虑表5中出现的组成词“petfel”,是由“saxophone”和“harmonica”组合而来,该模型最多涉及句子(2)和(4),同样的,从那些句子获得的嵌入非常相似。此外,在所有四个句子中,这两个句子最适合于简单的平均模型,因为它们包含信息丰富的常用词,例如“instrument”,“chimes”和“music”。

5. 总结

我们介绍了注意力模仿机制,并得出注意内容丰富且可靠的上下文可以改善低频和中频单词的表示形式,从而适用于各种任务。在以后的工作中,研究单词层面的注意力机制是否可以进一步改善模型的性能。此外,该架构是否也有益于不同于英语的其他语言。

本文分享自微信公众号 - 深度学习自然语言处理(zenRRan),作者:梁夏

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-11-20

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 赛尔笔记 | 自然语言处理中的迁移学习(下)

    相关概念:灾难遗忘 (McCloskey&Cohen, 1989; French, 1999) :一个模型忘记了它最初受过训练的任务

    zenRRan
  • 大数定律和中心极限定理的区别和联系

    昨天看了中心极限定理,今天写本科论文期间,又抽业余时间看了看大数定律,刚开始差点把本小博主给看蒙了O.O,对就是这样。后来去了知乎上瞅了瞅,还是瞬间懂了。知乎上...

    zenRRan
  • 【QA】基于动态协同网络(DCN)的问答模型

    【导读】本篇文章是由Salesforce Research团队发表在ICLR2017的一篇论文,文章中采用的方法在SQuAD比赛中排名第9。本文从模型和实验两部...

    zenRRan
  • NAACL 2019 | ​注意力模仿:通过关注上下文来更好地嵌入单词

    在稀疏上下文信息的情况下,很难得到较高质量的低频单词嵌入,“模仿”被认为是一种可行的解决方案:通过给定标准算法的词嵌入,首先训练模型出现频次高的单词的嵌入,然后...

    AI科技评论
  • 部署基于嵌入的机器学习模型的通用模式

    由于最近大量的研究,机器学习模型的性能在过去几年里有了显著的提高。虽然这些改进的模型开辟了新的可能性,但是它们只有在可以部署到生产应用中时才开始提供真正的价值。...

    OpenCV学堂
  • 文本的词嵌入是什么?

    词嵌入(Word embeddings)是一种单词的表示形式,它允许意义相似的单词具有类似的表示形式。

    StoneDemo
  • Jeff Dean强推:可视化Bert网络,发掘其中的语言、语法树与几何学

    这篇文章是为了补充解释论文,大致呈现了主要的结论。请参阅论文以获得完整的参考文献和更多信息

    代码医生工作室
  • 如何可视化BERT?你需要先理解神经网络的语言、树和几何性质

    语言的结构是离散的,而神经网络则基于连续数据运作:高维空间中的向量。成功的语言处理网络必须要能将语言的符号信息转译为某种几何表征——但是这种表征该是怎样的形式呢...

    机器之心
  • Jeff Dean强推:可视化Bert网络,发掘其中的语言、语法树与几何学

    本文是论文(Visualizing and Measuring the Geometry of BERT)的系列笔记的第一部分。这篇论文由Andy Coenen...

    大数据文摘
  • 学界 | 词嵌入2017年进展全面梳理:趋势和未来方向

    机器之心

扫码关注云+社区

领取腾讯云代金券