前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >对预训练语言模型中跨语言迁移影响因素的分析

对预训练语言模型中跨语言迁移影响因素的分析

作者头像
zenRRan
发布2022-09-27 16:30:42
7700
发布2022-09-27 16:30:42
举报
文章被收录于专栏:深度学习自然语言处理

作者:李加贝 方向:跨模态检索 链接:https://zhuanlan.zhihu.com/p/556921577

ACL'20: Emerging Cross-lingual Structure in Pretrained Language Models

这篇论文发表在ACL’20,作者研究了多语言掩码语言建模问题,并详细研究了影响这些模型对跨语言迁移的几个有效因素

task:

  • natural language inference (NLI),
  • named entity recognition (NER)
  • dependency parsing (Parsing).

剖析mBERT/XLM模型

域相似性

域相似性(Domain Similarity)已被证明会影响跨语词嵌入的质量,但是这种效应对于掩码语言模型并没有很好地建立起来。

在Wikipedia上训练英语,在同样大小的Wiki-CC的一个随机子集上训练其他语言。在XNLI和Parsing上下降了两个点左右,在NER上下降了6个点左右。一个可能的原因是,NER的标签WikiAnn数据由维基百科文本组成;源语言和目标语言在预训练的域差异更会影响性能。对于英文和中文的NER,都不是来自维基百科,性能只下降了大约2分。

Anchor points

Anchor points就是说在不同语言中都会出现的相同字符串,例如 DNA和Paris。Anchor points的存在被认为是有效的跨语言迁移的关键因素,因为它们允许共享编码器在不同语言之间至少有一些直接的意义捆绑,然而这个影响却没有被仔细衡量过。

更多的Anchor points会有帮助,尤其是在关系不太密切的语言对中(例如中-英)。default和no anchor相比,影响并不是很大,总的来说,这些结果表明,我们之前高估了Anchor points在多语言预训练中的作用。

参数共享

Sep表示哪些层不是跨语言共享的。随着共享层的减少,性能逐渐下降,而且关系不太密切的语言对也会下降更多。最值得注意的是,当分离嵌入和Transformer的底6层时,跨语言迁移的性能下降到随机。然而,在不共享底三层的情况下,仍然可以实现相当强的迁移能力。这些趋势表明,参数共享是学习有效的跨语言表示空间的关键因素。模型对于不同语言的学习是相似的,模型可以通过对学习跨语言具有相似含义的文本表示进行对齐来减少它们的模型容量。

BERT模型的相似性

单语言BERTs对齐

使用该方法来衡量相似度,X和Y表示单语言Bert的输出特征

Word-level对齐

对单语言bert的对齐能力进行实验,使用双语词典MUSE benchmark来监督对齐,并评估单词翻译检索的对齐。

使用更高层的上下文特征的对齐能力比低层的要好

上下文word-level对齐

研究表明,对齐单语言模型(MLM对齐)获得了相对较好的性能,尽管它们的性能不如双语MLM,除了英语法语解析。单语对齐的结果表明,我们可以通过一个简单的线性映射对单语BERT模型的上下文进行对齐,并将这种方法用于跨语言迁移。模型在中间层取得了最好的迁移对齐性能,而不是最后一层。与解析相比,单语言MLM对齐和双语MLM在NER方面的性能差距更高,这表明解析所需的语法信息通过简单的映射对齐较为容易,而实体信息则需要更显式的实体对齐

Sentence-level对齐

图6显示了采用最近邻搜索和余弦相似度的句子相似度搜索结果。在较低层取得了最好的结果。作为参考,LASER(用数百万个平行句子训练)取得了更好的性能结果。

这些发现表明,词汇级、上下文词汇级和句子级BERT特征都可以用一个简单的正交映射进行对齐。类似于词嵌入对齐(Mikolov et al., 2013),这表明BERT模型在不同语言之间是相似的。这个结果更直观地说明了为什么仅仅共享参数就足以在多语言掩码语言模型中形成多语言表示。

神经网络相似性

使用下述公式来衡量单语言模型的跨语言相似度

CKA similarity

对于单语和双语模型,前几层具有最高的相似性,这解释了为什么之前的工作发现冻结mBERT底层有助于跨语言迁移。换句话说,当语言相似时,使用相同的模型会增加表示的相似性。另一方面,当语言不同时,使用相同的模型对表示相似性没有太大帮助。未来的工作可以考虑如何最好地训练涵盖远亲语言的多语言模型

总结

  1. 在只有一些Transformer层的参数共享的情况下,可以从无监督的多语言掩码语言模型中生成多语言表示。
  2. 即使没有任何anchor points,模型仍然可以学习在一个共享的嵌入空间中映射来自不同语言的特征表示
  3. 在不同语言的单语掩码语言模型中出现了同构嵌入空间,类似于word2vec嵌入空间
  4. 通过使用线性映射,能够对齐用不同语言训练的Transformer的嵌入层和上下文特征。
  5. 作者使用CKA神经网络相似性指数来研究BERT模型之间的相似性,并表明Transformer的底层比最后层的跨语言相似度更高
  6. 所有这些影响在关系更密切的语言中更强,这表明在距离更遥远的语言对中有显著改进的空间。

📝论文解读投稿,让你的文章被更多不同背景、不同方向的人看到,不被石沉大海,或许还能增加不少引用的呦~ 投稿加下面微信备注“投稿”即可。

最近文章

为什么回归问题不能用Dropout?

Bert/Transformer 被忽视的细节

中文小样本NER模型方法总结和实战

一文详解Transformers的性能优化的8种方法

DiffCSE: 将Equivariant Contrastive Learning应用于句子特征学习

苏州大学NLP团队文本生成&预训练方向招收研究生/博士生(含直博生)

代码语言:javascript
复制

投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

记得备注~

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-09-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 深度学习自然语言处理 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 剖析mBERT/XLM模型
    • 域相似性
      • Anchor points
        • 参数共享
        • BERT模型的相似性
          • 单语言BERTs对齐
            • Word-level对齐
              • 上下文word-level对齐
                • Sentence-level对齐
                  • 神经网络相似性
                  • 总结
                  相关产品与服务
                  NLP 服务
                  NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
                  领券
                  问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档