专栏首页ATYUN订阅号关于跨语种语言模型的讨论

关于跨语种语言模型的讨论

最近,一个预先训练的模型被证明可以改善下游问题。Lample和Conneau提出了两个新的培训目标来培训跨语言语言模型(XLM)。这种方法可以实现跨语言自然语言推理(XNLI)的最新成果。另一方面,wada和iwata提出了另一种无需并行数据学习跨语言文本表示的方法。他们将其命名为多语言神经语言模型。

本文将讨论多语言神经语言模型的跨语言模型预训练(Lample and Conneau, 2019)和无监督跨语言单词嵌入(Wada and Iwata, 2018)

文章将包括以下内容:

1.数据

2.跨语言语言模型体系结构

3.多语言神经语言模型体系结构

4.实验

数据

Lample和Conneau对单语数据使用Wikipedia dump,而跨语言数据来自:MultiUN (Ziemski 等人,2016):法语、西班牙语、俄语、阿拉伯语和汉语

印度理工学院孟买语料库(Anoop等人,2018):印地语

OPUS (Tiedemann, 2012):德语、希腊语、保加利亚语、土耳其语、越南语、泰语、乌尔都语、斯瓦希里语和斯瓦希里语

wada和iwata对除芬兰语外的所有语言都使用News抓取2012年单语语料库,而对芬兰语则使用News抓取2014年。

跨语言语言模型体系结构

输入表示法

为了处理词汇表外(OOV)和跨语言的问题,采用字节对编码(BPE)子单词算法将一个单词拆分为多个子单词。不同的语言使用不同的子单词集,而是共享相同的字母表、数字、特殊标记和专有名词,以改进跨语言嵌入空间的对齐。

除了子单词,XLM还将位置嵌入(表示句子的位置)和语言嵌入(表示不同的语言)输入到不同的语言模型(LM)中,以学习文本表示。这些LM:

1.因果语言建模(CLM)

2.蒙面语言建模(MLM)

3.翻译语言建模(TLM)

因果语言模型(CLM)

CLM由一个转换器组成,通过提供一组以前的特性来学习文本表示。给定当前批处理之前的隐藏状态,模型预测下一个单词。

蒙面语言建模(MLM)

Lample和Connea遵循Devlin等人(2018)的方法,随机抽取15%的子单词,80%的时间用保留词([MASK])替换,10%的时间用随机工作,10%的时间保持不变。

Devlin等人(2018)的区别在于:

使用任意数量的句子,但不使用成对的句子

子样本高频子字

MLM体系结构(Lample and Conneau, 2019)

翻译语言建模(TLM)

CLM和MLM针对单语数据而设计,TLM针对跨语言数据。BERT使用片段嵌入在一个输入序列中表示不同的句子,而用语言嵌入替换它来表示不同的语言。

在这两种语言的数据中,子单词都是随机抽取的。这两种语言的子词都可以用来预测任何掩码词。

TLM架构(Lample and Conneau, 2019)

多语言神经语言模型体系结构

Wada 和Iwata注意到并行数据不适合低资源语言。由于模型无法从并行数据中学习文本表示,因此不同语言中的子单词嵌入将不相同。然而,他们共享双向LSTM来学习多语言的单词嵌入。由于体系结构是跨语言共享的,Wada和Iwata认为,如果一个token是同一个语言,模型就能学习类似的嵌入式。

下图展示了该模型的架构,同时:

1.f:正向和反向LSTM网络

2.EBOS:嵌入式的初始输入

3.WEOS:表示下一个单词是句末的可能性

4.El:语言的单词嵌入

4.WI:语言El的线性投影,用来计算下一个单词的概率分布

多语言神经语言模型的体系结构(Wada和Iwata 2018)

实验

基本上,XLM(MLM+TLM)跨语言实现了良好的效果。由于作者注意到CLM在跨语言问题中不具有可伸缩性,所以在接下来的模型比较中没有包含CLM训练对象。

模型间XLM结果(Lample和Conneau, 2019)

由于Wada和Iwata只专注于解决少量的单语数据可用,或者单语语料库的领域在不同的语言场景中有所不同。他们打算使用不同的数据集来查看性能。下图显示了如果数据集大小很小,这个模型比其他模型更好。

多语言神经语言模型的比较结果(Wada and Iwata 2018)

总结一下

1.BERT使用段嵌入(表示不同的句子),而XLM使用语言嵌入(表示不同的语言)。

2.CLM不能扩展到跨语言场景。

3.如果需要并行数据(TML)来提高性能,XLM可能不适合低资源语言。同时,设计了多语言神经语言模型来克服这一限制。

参考文献

1.Lample和A. Conneau-跨语言模型培训.2019

2.Devlin, M. W. Chang, K. Lee, K. Toutanova-BERT:语言理解深层双向变压器预习.2018

3.Wada 和T. Iwata.-基于多语言神经语言模型的无监督跨语言词嵌入.2018

原文链接:https://medium.com/towards-artificial-intelligence/cross-lingual-language-model-56a65dba9358

本文分享自微信公众号 - ATYUN订阅号(atyun_com),作者:关注人工智能的

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-08-01

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 联合国宣布2019年为国际本土语言年,AI可以拯救濒危语言

    随着濒危语言正在以惊人的速度消失,说濒危语言的人们纷纷求助于科技,以将其独特的语言和文化继续传递下去。

    AiTechYun
  • 微软的新型VPL模型,可以帮助人工智能更好的理解这个世界

    如果没有详细的标签注释,机器很难理解场景和语言,但标签注释通常是耗时且昂贵的,更为重要的是,即便是最好的标签,传达的也只是对场景的理解,而不是对语言的理解。为了...

    AiTechYun
  • MIT开发新型无监督语言翻译模型,又快又精准

    麻省理工学院的研究人员开发了一种新颖的“无监督”的语言翻译模型,这意味着它无需人工注释和指导即可运行,这可以使基于计算机的更多语言翻译更快,更高效。

    AiTechYun
  • 【C语言系列】为什么要学习C语言?C语言有哪些优势

    不止一个学生问到我:“老师,为什么我们的应用程序设计要学C语言而不是别的?C语言不是已经过时了吗?如果现在要写一个Windows程序,用VB或Dephi开发多快...

    程序员互动联盟
  • 如何用三个月搞定C语言

    C语言上个世纪七十年代诞生至今,已经度过了40多个春秋,在此期间经历多次的版本的更迭,目前市面上绝大部分语言的底层实现都是基于C语言,随着C语言之父的逝去,C语...

    程序员互动联盟
  • 经过重重筛选,我们为什么要选择kotlin ?

    内容来源:2017 年 11 月 19 日,上线了联合创始人郭达峰在“2017 谷歌开发者节北京站”上进行的《Kotlin as Your Next Langu...

    IT大咖说
  • 哪种编程语言又快又省电?有人对比了27种语言

    当能耗也成为了一个重要指标,我们要怎么选择编程语言?2017 年,由 6 名葡萄牙研究者组成的团队决定对这一问题进行调查并发表了一篇名为《Energy Effi...

    CDA数据分析师
  • 谷歌翻译VIP版本?MIT科学家开发机器翻译新算法,专为破译消失的古语言

    语言是文化的有机组成部分,也是文化的载体,世界文明的多样性在很大程度上表现为世界语言的多样性。而在 21 世纪的今天,语言学家们显然已经不满足于传统的、对已知语...

    大数据文摘
  • 如何掌握所有的程序语言

    对的,我这里要讲的不是如何掌握一种程序语言,而是所有的…… 很多编程初学者至今还在给我写信请教,问我该学习什么程序语言,怎么学习。由于我知道如何掌握“所有”...

    顶级程序员
  • 你真的需要了解多种编程语言吗?

      英文原文:Do You Need To Know More Than One Language  我在谋杀自己的职业生涯。没错,很多人都这样说我。   我的...

    春哥大魔王

扫码关注云+社区

领取腾讯云代金券