前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >EMNLP 2021 | 百度:多语言预训练模型ERNIE-M

EMNLP 2021 | 百度:多语言预训练模型ERNIE-M

作者头像
NewBeeNLP
发布2021-12-17 17:40:01
1.1K0
发布2021-12-17 17:40:01
举报
文章被收录于专栏:NewBeeNLPNewBeeNLP

作者 |‍ Chilia ‍ 哥伦比亚大学 nlp搜索推荐 整理 | NewBeeNLP

2021年伊始,百度发布多语言预训练模型ERNIE-M,通过对96门语言的学习,使得一个模型能同时理解96种语言,该项技术在5类典型跨语言理解任务上刷新世界最好效果。在权威跨语言理解榜单XTREME上,ERNIE-M也登顶榜首,超越微软、谷歌、Facebook等机构提出的模型。(但是现在降到了第7名)

1. 背景

预训练跨语言模型对于下游的跨语言任务有着很大的帮助。以情感分析系统为例,构建情感分析系统往往需要大量有标签数据,而小语种语言中的有标签数据十分稀缺,因而搭建小语种语言的情感分析系统十分困难。依托多语言模型的跨语言迁移能力可以解决该问题,在高资源语言标注数据上训练的模型直接对小语种语言进行理解,搭建小语种语言的情感分析系统。

XTREME评测是谷歌研究院、DeepMind和卡耐基梅隆大学于2020年4月发布的涵盖了12个语系40种语言的多语言权威评测榜单。其包括文本分类、结构化预测、语义检索和阅读理解等四类自然语言处理任务的9个数据集。2021年1月1日,ERNIE-M在以80.9分的成绩登顶榜首。

当前的技术主要通过「单语语料」分别学习不同语言的语义,再使用「平行语料」将不同语言的语义对齐。然而大部分语种的平行语料很少,限制了多语言模型的效果。

为了突破平行语料规模对多语言模型的学习效果限制,提升跨语言理解的效果,百度研究人员提出基于「回译机制」、从很少的平行语料中学习语言间的语义对齐关系的预训练模型ERNIE-M,显著提升包括跨语言自然语言推断(XNLI, for cross-lingual natural language inference)、机器问答(MLQA)、命名实体识别(CoNLL)、同意转述识别(PAWS-X, for cross-lingual paraphrase identification)、跨语言检索(Tatoeba) 在内的5种典型跨语言任务效果。

2. 模型

首先提到,现有的预训练方法有:

  • MMLM(multilingual masked language modeling)。其实这个就是最初代的BERT的MLM训练方法,只不过是对100种单语语料都用MLM训练一遍。
  • TLM(translation language modeling)。这个是XLM提出的预训练方法,和BERT不同的是它用了双语语料,两个语言都有一些[MASK], 需要通过本语言的上下文和对方语言的全文来填补这些[MASK]. 可以想见,MLM由于只用了单一语言,没有做双语对齐;而TLM用了大量平行语料,所以能够「让不同语言embedding共享同一个向量空间」

XLM文章中对MLM和TLM的对比

本文创新的提出了「CAMLM」(Cross-attention Masked Language Modeling), 其实意思非常简单:对于平行语料语言A和语言B,语言A的[MASK]只能通过语言B来还原、语言B的[MASK]只能通过语言A来还原。这样是为了避免information leakage,即语言直接通过自己的上下文来还原[MASK]。

这样"逼着"模型来学双语的semantic alignment。例如:输入的句子对是<明天会[MASK][MASK]吗,Will it be sunny tomorrow>,模型需要只使用英文句子<Will it be sunny tomorrow>来推断中文句子中掩盖住的词<天晴>,使模型初步建模了语言间的对齐关系。

CAMLM需要用到双语语料,那么平行语料不够的怎么办呢?本文还提出了BTMLM(Back-translation Masked Language Modeling), 直接用单语语料学alignment。这是怎么做到的呢?其实也很简单,就是在单语句子A后面加一些[MASK],当成目标语言B需要填充的[MASK],然后用训好的CAMLM来填充之。这样,我们就有了伪平行语料B. 然后再把A的一些词做mask, 只用伪平行语料来填充。通过这种方式,ERNIE-M利用「单语语料更好地建模语义对齐关系」

3. 实验

使用Transformer encoder。ERNIE-M-BASE 12层,768维,12个头; ERNIE-M-Large 24层,1024维,16头。使用GeLU激活函数,用XLM-R预训练模型做初始化。

通过两种方式评测ERNIE-M的效果:

1)Cross-lingual Transfer:该方式将英文训练的模型「直接在其他语言上测试」(直接transfer, 可以理解为是zero-shot learning),验证模型的跨语言理解能力。在实际应用中,如果缺乏某种语言的标注数据,该技术可以通过其他语言的标注数据对多语言模型训练解决该问题,降低小语种系统的构建难度。

2)Multi-language Fine-tuning:该方式使用所有语言的标注数据对模型进行多任务训练,验证在有本语言标注数据的情况下,模型能否「利用其他语言的数据」,进一步增强该语言的理解效果。

跨语言检索 ⭐

跨语言检索任务是在双语语料库中检索语义相同的句子,如下图所示,ERNIE-M可使得用户只用某一种语言,例如汉语,便可检索到其他语言的结果,如英语、法语、德语等结果。ERNIE-M在跨语言检索数据集「Tatoeba」上取得了准确率87.9%的效果。这个任务也是和笔者现在要研究的方面最接近的。

自然语言推断

自然语言推断是自然语言理解中的一项重要的基准任务,该任务的目标是判断两句话之间的逻辑关系。多语言数据集「XNLI」数据集包含15种语言,既有英语、法语等常见语言也有斯瓦希里语等小语种语言。

ERNIE-M在Cross-lingual Transfer和Multi-language Fine-tuning两种模式下验证了效果。研究者用英语对ERNIE-M进行微调训练,在汉语、德语、乌尔都语等语言上测试,能达到平均准确率82.0%的效果。如果使用所有语言的训练语料,准确率可以进一步提升到84.2%。

阅读理解

阅读理解任务的目标是根据文章回答指定问题。为了评测ERNIE-M在阅读理解任务上的效果,ERNIE-M在Facebook提出的「MLQA」多语言阅读理解数据集上进行了评测。在该任务中,模型需要先在英语上进行训练,再在其他语言的数据集上评测。此项任务可以评估模型在跨语言问答任务的效果,帮助跨语言问答系统的搭建。该任务如下图所示,ERNIE-M在仅使用英语训练的情况下,不同语言的问题中有55.3%可以完全回答正确。

命名实体识别

命名实体识别任务的目标是识别出文章中的人名、地名、时间、机构等信息。其可以帮助人们快速地从大量文章中提取出有价值的信息。如下图所示,使用多语言模型可以帮助我们在小语种文章上做信息抽取。ERNIE-M在CoNLL数据集上进行评测,同时在Cross-lingual Transfer和Multi-language Fine-tuning两种模式下验证了效果。研究者用英语对ERNIE-M进行微调训练,在荷兰语、西班牙语和德语上进行了测试,平均F1能达到81.6%,如果使用所有语言的训练语料,平均F1可进一步提升至90.8%。

吐槽:本来想用这篇文章的预训练模型,后来发现Ernie-M的预训练模型还没有开源。而且已经开源的ERNIE是用paddlepaddle框架写的,导致很难follow...一人血书百度能不能用点通用框架做研究...

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-12-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 NewBeeNLP 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. 背景
  • 2. 模型
  • 3. 实验
    • 跨语言检索 ⭐
      • 自然语言推断
        • 阅读理解
          • 命名实体识别
          相关产品与服务
          NLP 服务
          NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
          领券
          问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档