三种 Cross-lingual 模型 (XLM, XLM-R, mBART) 详解原创

2021-01-312021-01-31 13:46:29播放22.6K

点赞52 收藏 0

三种 Cross-lingual 模型 (XLM, XLM-R, mBART) 详解：https://wmathor.com/index.php/archives/1503/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
嗯，大家好，今天给大家讲三个模型，这三个模型分别都是跨语言的模型。呃，它们分别是XLMXLM、杠二和MT。呃，有意思的是，这三个文章，三篇文章都出自出自于。啊，所以我在这里写一句话，他们是不是对跨语言模型有什么执念？那么我们先我先讲一下第一个，呃，跨语言模型嘛，就是XLM，呃，这个X是什么意思呢？就是cross，就是啊，就是这个意思cross。那么它就是cross model。呃，这篇文章，呃，呃，我讲的三个模型的顺序啊，是按照他们在r cap上，呃，发表论文的时间，那么XM是2019年一月份的时候，呃，提交到R上的。XM-R呢是19年11月的时候，那就是隔了十个月，然后M比较新吧，十个月以前。
01:03
呃一零呃二零呃，就是二零年年初。那我先讲第一个就是XLM，呃，这个XLM呢啊，前面就是一段背景介绍，我就不说了。主要的是在于他文中提出了三个预训练任务啊，其中两个仅需要单语种的数据集，也就是呃，单独的是英语，或者是单独的一个中文的就可以了，而且是采用无监督的方式。另一个任务呢，需要平行语料，也就是说呃英语翻译成中文，呃中文翻译成日文，呃日文翻译成英语这样子的平行的语料，呃一一对应的，呃句子，句子翻译过来是一一对应的，那么它是一个有监督的方式。呃，首先我先说一下怎么去，呃它XRM里面去构建一个呃呃语料库是怎么做的，那它假设有N个语种。呃，比方说呃，英语中文和汉语。
02:02
那么就是三个语种对吧，然后呢，呃，每个语种的语料记为C，那比方说C1代表是中文，C2代表是英语，C3代表的是日语。然后呢？呃，CI当中的句子数量用来表示。那比方说呃C1就是中文嘛，中文里面有呃，它这个语料一共有呃，比方说100条句子啊，然后C2是英语嘛，英语里面可能有呃200条句子，然后日日语里面可能会有呃30条句子这样子，那么就是ni来表示。然后呢，作者，呃，作者实验当中，他们所有的语种共用一个字典啊，这个字典是用BPE的方式构建的，也就是其实和word和bet它构建，呃。词库是一样的一个方式都是呃，通过wordp，呃，这个更具体的展开的话，大家可以去网上搜一些博客去看一下怎么去用BP构构建词库，这个还是挺简单的。
03:03
这里我就不展开讲了。呃，共享内容包括这些。呃，最关键的地方在于什么呢？就是我我前不是说了吗？呃，呃英语，呃中文可能100条句子，呃英语有200条，那日语可能有，呃30条或者50条，那很明显的一个问题呢，就是他们的一个语料样本数量是不平衡的，所以说他们为了保证语料平衡，那么它的句子的采样的概率是下面这个函数啊。这个论文当中是这样子贴出来的，然后呢，别的网上那些博客也是就把它放在这里就完事了，他也不去详细讲解这个公式，那么这里我就会仔细讲解一下这个公式。啊，首先这这个它的句子的采样的概率啊，比方说这个Q。那Q比方说Q1等于0.3 Q2等于0.2 Q3等于0.5，那分别表示什么呢？表示什么意思呢？就是说呃，那就是说Q1等于0.3，那就是说C1这个语料，那就是英语，呃，它被采样的概率是呃，0.3 Q2等于0.2，那就是说中文啊这个语料它被采样的概率。
04:08
就是说它采集中文句子的概率是0.2，然后Q3等于0.5，那就是说呃，C3这个语料，也就是日日语的语料的句子被采样到的概率是0.5，就是这个意思。那么这个概率是怎么这过来呢？呃，是通过这样的一个函数，呃，这样的一个式子来计算的啊，这个式子里面涉及到一个P，呃，P这样的一个呃字母，这个P是怎么得到的呢？啊，其中还有一个阿尔法，阿尔法等于0.5，这是一个算是一个超参数吧？呃，那我下面就举一个实际的例子啊。我们现在假设有三个语种的语料，C1 C2 C3啊，我们就可以分别认为它是呃中文英语啊，日文等等都可以，然后他们对应的句子数量分别是啊，比方说呃英语有100条，呃中文190条，然后日语就十条，那这样子我们可以看到，假如说。
05:00
如果我们不按照这个公式来采样，直接按照他们的比例去进行采样的话，那就是300对吧？那么他们的概率分别是多少呢？就是三百分之一百啊对，三百分之一百，那就是1/3，那也就是说呃，C1这个语料被采样到的概率是1/3，然后呢，那这个就是19/30。那C2这个语料被采样到的概率就是啊这个概率，然后呃，C3这个语料被采样到的概率就是1/30，按照这个比例来看的话，那就是这样子，但是这样做其实并不好，因为。呃，因为就是说呃，为了保证语料的平衡嘛，你这样去采样的话，像这种语料，呃，句子比较多的这种语料库啊，它被采样到的概率就大，那你好像学的也没有什么特别特别大的意思，像这种小语料的，呃像小语料的语种，好像学习到的特征就不是特别多，这样就不好，因此呢，它这个地方就用Q这概率，那么这个Q这个概率是依赖于P这个概率的，P这个概率就是他们的一个比例。
06:04
啊，这个比例算出来了，然后呢，要把这个P这个概率去做一个阿尔法次方，这里他们的论文当中设定的是阿尔法等于0.5，那就相当于开个根号，那这个呃，1/3开根号就是约等于0.57，然后这样就约等于0.79，然后约等于0.18，然后再把这个开了根号的三个数去做一个比例。那这样的话，得到真正的一个采样的概率，也就是呃Q1就等于这三个相加作为分母，然后这个作为分子，那得到的就是0.37，然后这三个作为分母，这个作为分子，那得到就是0.51，然后这样子一直往下，那最后算出来的时候呢。这样看来，其实好像像这种小雨料的呃语种，它的概率还是不是特别大，对吧，还是只有0.1，但是其实呢，我们仔细看一下啊，假如说你按照传统的非常简单的方式，直接按照比例去进行呃采样的话，那么这个呃小语料也就是C3，它被采样到的概率是1/30，而这个呃像这个P1，它被采样到的概率是1/3，他们之间是相差是有一个十倍的这么一个关系，如果是直接按照这样的比例来采样的话，是。
07:15
呃，小语料是呃大于料的1/10，但是如果按照它的公式这样去计算了一下之后呢，它呃。呃，Q1的概率也就只有Q3的三倍了，原来是十倍，现在只有三倍了，其实呢，呃。其实可以就是怎么说他们之间相对的倍数变小了，其实还是这个小雨料被采样到的概率还是变大了一点，相对于之前这种比较简单的方式来说的话，还是要好一点的，那么啊，这整个就是花了这么多时间去讲一下它这个采样的一个方法。那么下面大家自己看一下就好了，那么这个就是一个呃，采样的一个方法，呃，下面就是一个预训练的任务，前面我也提到了，他文中有三个预训练任务。
08:00
呃，那么首先第一个就是一个因果，呃原建模其实就是一个传统的transformer模型，就是说呃，这C卡是个transform的参数，然后我在给定呃前T减一个词的时候呢，我要预测出第七个单词是什么啊，其实就是一个呃自回归模型嘛，可以这么理解啊，就是一个非常简单的参出模型，这个没什么好说的。第二个预训练啊，当然这个预训练任务，这两个预训练任务。都呃，就是这两个预训练任务都是，呃，这里我提到的单语种的顺序级，它只需要单语种，因为你看你这里，呃预测后一个单词。你涉及到双语种了吗？没有啊，因为你只需要一个语种的句子就可以了，然后这个mask的language model啊，就是bet的，就是你所知道的bet的mask任务，它也是一个单语种的，比方说这个图，呃，这里我们输的是英文，比方说啊什么什么啊，Take a seat，然后什么have a drink等等，这是一个英文，英文的句子，然后它这里。也是一个单语种的，但是呢，我们可以看到它这里多了一个东西。
09:02
就是传统的bird啊，它只有两个inbding，一个是token inbding，还有一个是position啊，Position inbding，它这里还多了一个叫language inding，就是说它标注出这个呃，这是个什么语言？那比方说我现在是对于英语这样的一个单语种去做一个预训练，呃，那我可能是en，那如果说我对一个中文嗯去做一个训练，那它可能变成Z，那对呃日文的话，那可能变成呃，G，呃，对吧？呃这个的思想其实用的比较多，就是language in，呃在什么地方呢？比方说在语音方面。呃，比方说语音分离的时候，呃，你输入一个语音信号进去，然后呢，你可能还要再输入一个，呃，这个说话人他是是哪一个说话人，比方说一号说话人，那么你就把这个一全部传个一进去，然后二号受害人说的话呢，你就传个二进去，这样子。呃，这样做有没有好处呢？其实还是看结果，因为这个不好说的，还是要看结果。当然可能有人觉得多添加一些东西进去，呃，给让模型知道哦，我现在输入的是英文，他看到这个language in writing时候就发现，哦，我现在输入的是英文，那我就要用英文的思想去进行一个呃，去推测这个mask是什么词，然后我输入呃，这个language many，我输入中文的时候，这个模型可能就认为啊，我需要转换成中文的一个呃，阅读的一个思想，阅读的方式去看这个mask的词是什么，所以这样好是好像是有用的，嗯。
10:28
还是要看最后结果，这个不好说的。其实。啊，那么这个就是mask language model，它的一个预训练任务，那其中有一些不一样的地方啊，就是说呃，他这篇论文当中，这个呃，他用呃bet当中啊，他用的是两个句子去拼接，对吧，但是他这个论文当中用的是任意数量的句子。就可以了，呃，任意数量的句子去组成一个文本流，但是呢，每一个句子最长只能是256个token，就这样子。呃，我这里提到了就是bet是用了两个句子组成的文本，对，而它是用的任意数量的句子组成的一个文本流，呃，文本流就是表示很长的意思嘛，因为它是一个非常非常多的数量的句子。
11:13
而且为了平衡啊，高频词与低频词之间的差异，所以它在进行mask的时候，它采样哪些词要做mask也采用了上述，呃，就是这里提到的一个采样的一个方法。啊，那么这个前两个呢，就是一个呃无监督的一个预训练的模型，那么下面这个就是有监督了，就是在就是什么呢？TRM，呃，一个预训练任务叫translation language model，就是翻译呃语言呃翻译语言模型。嗯。为什么会提出来这个呢？因为它这个本身XLM它就是一个cross lo，它就是一个多语言的任务，而我前面这两个呃任务，它都是对对于单语言去做的，那我如何去引入一个多语言的呃任务，让他去学习多语言东西呢？
12:00
那么就呃比较好，比如何设计一个针对于平行语料的有监督任务呢？其实翻译任务是个不错的选择，那么这篇呃论文他就提出来一个TRM，呃具体看这个图吧，其实还是很好理解的，就是说嗯，首先还是我们从下往上看，还是说就是你一个呃输入两个句子对吧，然后呃。两个句子，可能一个句子来于英文，那么一个句子来自于就是法语，那么首先你在这个英文句子里面啊，还是language，然后呢，法语里面也是啊，法语的一个language in白领，但是它有个有一点不一样的地方，就是这里。就是说你的position in bed，我们通常情况下是012345，然后一直往下数，六七八九十，这样子数下去，但是呢，它对于不同的这个。呃，语言的句子啊，在这个英语的句子里面，它是012345，到到了另一个语言的句子里面的时候呢，它就重置。重新从零开始数，那就是012345，这样数下去。
13:01
这是一个呃比较特别的一个点吧，我嗯，然后呢，它这个地方还是一个呃，Mask任务，但是呢，它就是说呃这样做有什么好处呢？比方说当你单独去看这个英语的时候呢，你可能这里你看你就的，然后mask mask，然后blue，那你就根本就不知道是什么东西，对吧？呃。但是呢，呃，就是说传墨他可能不知道这里是你这个模型可能不知道这里是什么，但是由于你输入了对应的一个法语，就说这句话，他翻译过来就是这样的一个法语，那他可能这个模型就会认为，呃，这里可能是有一个一一对应的关系，那他可能会学习到这个法语里面这个单词。是一个什么样的意思，然后呢啊，去补充我这里的一个呃呃，补充这里的一个单词，然后呢，呃就是这样的一个意思，就是当他这个模型从单独一个语言里面不足以去呃呃获得这个mask词的时候呢，他可能会去看别的语言的这个句子里面的一些词，一些信，获取一些信息，然后来补足我这里的一个问题，就是这样的一个思路吧。
14:07
嗯，这里我也用文字去描述一下，那么这个就是整个三个预训练任务，呃，我也讲完了。然后它这里有一个crossingo。就是他在训练的时候是怎么样做的，他这个跨语言预训练的时候呢，它有两种组合方式，一种是用CRM和MLM进行组合，或者是用LMLM与TRM进行组合，那这里其实就是我们前面看到这个图。呃，就是这样做的。好，那么这个大家也就自己看一下就好了，那么最后这个结果啊。首先他这个地方，呃，他提到了，呃，对于跨语言文本分类，那么论文采用的是什么呢？就是用模型的最后一层的第一个头的输出，我就是CS嘛，或者是什么一些其他的特殊的一些来作为后续信息分类器的一个输入啊。
15:00
就是这样子的，那我们可以看一下最后的结果。呃啊，最后结果也是达到了一个sota，就没说的。嗯，大概就是这样子。那么这里还有一个就是UMT，就是无监督的机器翻译方法，呃，这个是一个比较用，呃，现在用的比较多的一个，呃，数据增强的方法，具体来说是怎么做呢？比方说对于英语译成德语这个任务啊，那我们首先搭建起一个ER，也就是模型，之后呢，我们先对于这个。英语翻译成德语嘛，那么英语是source，而德语是target，那我们先在这个source上英文文本上面加上一些噪声，然后输入Co。输入in之后呢，那么。呃，再输出一个德文的伪数据啊，为什么叫德文伪数据呢？因为它这个地方并不是完整的一个德文，而是一个。呃，我们可以认为它是一个德文的一个呃向量吧，就是这么一个东西，然后我们再把这个德文的伪数据呢，再送入encoder，此时我们希望底code输出的是什么呢？输出是原始的英文文本，是没有噪，没有噪声的英文文本。
16:12
啊，就有一种auto inco的感觉在里面，就是我写的，呃。其实它这个整个流程啊，就是把英语翻译成德文的伪数据，然后再把这个这个德文的伪数据再还原成英文，只不过这两个英文呢。它的输入这里是有造成的，而这里是没有造成的，就是这样的一个一个情况。呃，这个现在用的也是比较多。好，那么下面就是呃一些结果，这个地方结果呃大家自己看就好了，我就不花时间去讲了，那么这里是嗯。好，那么整个XM大概就是这样。嗯。是差不多就这样子，那么第二个模型XLM杠，这个杠R其实就是。啊，这里。
17:00
呃，XRM-R我这边写了，全称叫做XM杠塔，呃，如果大家不了解的巴塔的话，可以先看一下我这篇文章。嗯，其实。其实从名称上来看的话，大家明白了，就是说它在XRM的基础上呢，把原本的那个bet的结构改成肉巴塔的结构，那这里可能是贝塔，它改成巴塔。啊，首先它有些哪些改进呢？呃，它增加了语种的数量，然后增加了训练集的数量啊，这个就是嗯，数据多嘛，这个这个很正常，然后在翻丘呢期间呢，使用多语言模型的能力啊，来使用多语言，呃。的标注数据来，呃，为为了提升下面的任务，呃，其次呢，就是说啊一些一些东西吧，这个大家自己看就好了，其实和XM非常相似。嗯。然后有一些比方说词典大小变成什么，并且重新设置了这个采样的这个阿尔法，它的它的值是什么。嗯，啊，这里有一个非常重要的一个地方，就是它与XM最最大的不同在于，呃，它这个地方不使用language了，我们看到前面其实是使用了language。
18:09
那他这里又不使用了，但是等会儿我我讲这个m bart的时候呢，它其实又用上了，呃怎么说呢，这个科技是一个轮，是一个圈，就是他，呃一开始大家用，然后后来又不用，然后又用，这是一个轮回，呃这里他做这张图表示什么意思呢？呃，表示说。就是XM-R，它预示了100种语言，那么下面展示是XM-R和XM100相同的88种语言，以及各个语量的大小。然后我们可以看到，呃，第一个是英语，那么他用的是。十的，大概五乘以十的，呃，大概就是500GB左右的数据。然后下面是它的结果。啊，这个地方大家自己看就好了，那么其中有一些比方说这个D表什么呢？D表示用于预训练的数，呃，数据的数量啊，预训练的数据用的什么，比方说他这里用的啊，维基百科啊等等，还有什么呢？呃，杠M表示模型的数量。
19:11
然后LG表示语种的数量。那这看可以看到它这里用了100种语言，这里是这是别人的，用了一个15种的语言啊，这些都是别人的。然后他还做了一些其他的任务，比方说呃命名，实体识别，还有呃问答问题。啊，最重要的是这个地方多语言模型常常招致了一个批评，是什么呢？就是他在单语言的任务上并表现并不好，因为我可以这么，其实很好理解，因为你在，呃，比方说你有100种语言。那呃。我举个例子吧，比方说你这个英语确实是有，呃呃500GB，但是呢，其他语言全部加起来已经是你这个英语的好几倍了，那可能模型在学习的过程当中呢，呃，可能别的别的语言特征也学习到了，而这个时候你要把这个多语言的模型单独去做一个英语的任务，可能他就嗯很难做的很好了，因为他基本上学的我们可以把这个语言分成英语和其他语言。
20:14
那其他语言的这个语料的数量是你这个英语的好几倍，我们可以可以认为它是一个样本不均衡的问题。那你再去做一个，单独做一个英语的任务，可能效果就并不是那么好。这地方不知道大家有没有理解，呃，但是呢X，呃就是说表单语元任务上表现比较好，但是XM杠塔它的实验结果却令人刮目，它可以超越单语种的不的效果，比方说它在单语种上的一个任务啊，这个可能是一个呃，什么样的任务啊？大家可以看一下论文的时候，我们会看到XM杠七，就是说他用他在一个七种语言的预训练的，呃，他在他在七种语言上进行一个预训练。啊，最后得到的是87.2分，而bet呢，它是一个单语种的，嗯，是86.7分，这地方我写了一个注释吧。
21:04
就是说作者这里为了嗯。证明它比单语言模型要好，他其实做了很多那种手段，因为我们可以看到他前面提了那么多XM杠，100XM杠呃等等等等，它有100种呃语言的训练，它这里偏偏用一个七种语言的预训练模型，为什么呢？这里也很好理解，因为你语言的呃种类越少，你单独去呃学习的话，也单独去做一个单元任务，可能会效果好一些。其次它这个地方是跟bet去比。而不是跟巴塔去比，嗯，为什么呢？因为他这个XM-R本来就是一个基于re巴塔的模型，而它这里只跟贝特去比，它不跟巴特去比，我真的觉得很奇怪，为什么你要你要你明明是在Robert巴特的基础上去做一个呃，多语言务，为什么不跟Robert巴特去比呢？嗯，这个地方反正哎大家懂的懂的都懂，对吧？可能是比不过嘛，没办法啊，那这个我就不多说了，那么这个就是第二个，呃，Crossingo模型，第三个也是一个比较比较强悍的模型，也是比较新的。
22:11
嗯，在哪这里。这里我前面不是提到说科技圈，呃，科技是个圈嘛，呃，它有个轮回，我们看到这里，它其实就又又引入了一个language in be，只不过它这个地方呢，Language beding它是加在句子里面，而不是说去单独做一个inbding，然后和这个token in bedding相加，而是直接把这个token。表示你是什么语言放到这里来。嗯，我们也看到呃它的名字啊，其实就是一个maringo版本的bart啊，如果不了解bart，请你先看一下我这篇文章，其实我昨我昨天晚上录了一期呃巴和的视频，大家呃不想看文章的话，去看一下这个视频也可以。那么下面这个图呢，是论文进行和的一个方式。呃，我们可以看到他在这个train的时候呢，它其实是呃是单独语言，而不是说去跨语言去做一个train，呃，那么像的时候有哪些任务呢？首先还是用mask任务。
23:13
So where did you from。Where did I come from。啊对，那么这里，呃，它是用一个mask代表，那就是相当于和一样，呃，有一个test in任务在里面。呃，然后呢，这样一句话，然后最后结尾加上一个标志，表示说这是个英文的句子，那这里它是日文的，那它就加上一个呃，Japanese的一个标志。并且呢，这个句子啊，它有一个呃，Sentence order，呃，它和很相似，我这里写了。就是说在的阶段，就是这张图，它只需要一种语言，那么这种语言就训练这个模型，然后这种语言就训练这个模型，然后呢，并且Co的输入，呃，包含了mask token decoder，输入呢是sentence proation，呃，大家可以看到这里面是有两句话，一个是呃，Where did I come from，一个是whomi两句话然后呢，它这个地方，呃。
24:10
呃，这里他把这两句话打乱顺序，比方说他可能是先where did I come from，然后呢？这里是WHOAMI，然后加一个问号。那么当他一开始输入en，这个en呢，其实去替换掉了杠S，呃，不，不是杠S4，呃，是S就说呃，所以我写了。嗯，每个句子的结尾它都会加上一个n token-S表示这个句子结束了，并且希望这个transformer呢能够顺利还原所有的mask token以及原始句子的顺序。呃，我们可以这里可以看到啊。嗯嗯。就是说它这个原始的句子啊，可能是WHOAMI和where did I come from，但是呢，我输入的句子是把这两个句子交换了顺序的。
25:03
而我在输入en这个开始符号的时候呢，它能够正确的还原啊，一开始是who mi，然后把这个who放下来，然后在输入得到M，然后把这个M放下来，得到I，而不应该，而不应该是什么呢？我们不希望它输入en，然后得到一个where，然后再得到where did I come from。我们希望他把这个句子的正确的顺序给它还原出来，这还是比较比较困难的。嗯。OK。那么在而，而且，而且这个地方，在deo书的句子前面还加了language ID作为翻译任务的一个start token表示它的一个开始的一个标志，就是用这个ID去表示，去代替原本的一个s startn。这是。嗯。好，那么其实大概就这样子了，那么在翻圈的时候呢。呃。其实翻车比较简单了，大家可以看下这个图，它就是这两个，其实没什么不同的，一个就是句子的长度的问题，一个是sentence，呃，Machine translation，就是呃句子的一个机器翻译，一个是文本的记翻译，就是句子和文本的，他们差别就在于呃长度不同而已。
26:18
那呃，比方说他这里是啊索雷加，呃就是那那就加va，然后骂呢，就是明天见，然后呢，他就说啊不要带，那么就加吧，啊s tomorrow等等。就是一个机器翻译了。呃，其实这个还是比较简单的。那么他在呃预训练的时候呢，使用数据集啊，一共有25种语言，那么啊，一共有多少个token啊等等啊，就是我这里也写了，大家去看一下就可以了，有哪些语言，其中包括。啊，包括中文，对这里中文简简体中文。那么他在做测试的时候呢？呃，接下来作者比较不同语言对于英文的一个翻译效果，就是说呃。
27:04
他在他对他他用英文翻译成GU，然后用英文翻译成KK，我也不知道这KK的GU是什么语言了，我就直接用缩写来代替了，就说英文翻译成这样的东西，然后看下他们的效果和什么对比呢？这个是MB25，是在一个25种语言上去预训练的一个呃模型，然后去做一个翻译，它的效果是这样子的，然后这个random表示什么呢？呃，Random表示不使用一个不使用模型，直接在这个呃模型上去进行一个训练。我们看到不管是哪种翻译上啊，比方说英文翻译成。哎，没有英文翻译成中文吗？啊，有英文翻译成日语吧，那就说在英文翻译成日语还是什么地方都是这个M2和25预训练的要更好一些，当然这个肯定的预训练肯定要好一些。呃，之后呢，作者，但是呢，其实还有一点问题，就是说呃作者在呃前面这些啊，都是第一资源的。
28:00
呃，大家可以看到这里面有呃，Size对吧，10K就是1K，这都是一个语料的一个大小，那当它在一个高资源，就是说资源很多的语料大都大于十兆上面进行翻的时候呢，有趣的是作者发现当资料量，也就说当语料库的那个呃具体的数量，或者是整个文本的数量。大于一定程度的时候呢，单独使用自己的资料集反而会更好一些，也就是在这个random的效果要比这个预训练25种的呃任务上好一些。我们看到在这个当。嗯，25兆以上的时候都是这个效果要好一些。呃，最后作者做了一个非常有趣的实验，这个实验还是挺有意思的，首先他作者翻听了12种。语言翻译到英文。呃，为什么解不开呀？啊就是这里，呃，首先呢，呃作者用比方说用呃。
29:01
中文翻译成英语，然后日文翻译成英语，然后韩语翻译成英语，得到预训练的，呃，不是是翻出了很多模型，然后再用这些模型呢，再去翻译自己啊，就是说呃怎么解释呢，一共有12345。七八九十，11 12，一共有12个语言，那其实作者就翻成了12个模型，这12个模型分别是用英语啊翻译成英语的，呃，用中文翻译成英语的一个翻车的模型，用日语翻译成英文的一个翻车的模型，用韩语翻译到英语的一个翻车的模型，然后呢，再用这12个翻车的模型。分别呃，去做一个。做一个测试吧，那就说用中文。翻译成中文看看效果啊，是23.7，然后呢，用中文翻译成日语是9.9，用中文翻译成韩语是5.8，然后呢，用那么我们看到这个对角线上就是其实就是自己翻译到自己把中文翻译成中文，日语翻成日语，韩语翻译到韩语，其实我们发现它不管是在，呃，因为我们翻旧的时候啊，只有中文翻译成都是这些语言翻译到英语上，呃，翻译到英语上的。
30:11
而当他在测试的时候呢，他反而还是对于自己比较好，对吧？啊，对于自己效果是比较好的，当然了，这里如果多增多增一行en也是English话，我相信他们肯定是对于English是最好的，但是这里没有English，嗯，他们自己到自己都是最好的，而且有有一个比较有意思的地方，就是说可以看到这个框。就比如说什么呢？嗯。这里我也写了，就是除了他们自己翻译到自己最好以外，就是这个对角线上其表现四好的模型都是同一个语系的，就是我们可以呃，大家应该明白，呃，像韩语日语其实都是从中文呃改改就是改变过去的，就是说呃像中文韩语日语他们是同一个语系的，那么他们翻译的效果是。
31:01
都是比较好的。像什么啊，这这些语言我也不懂是什么东西，他们可能就是比较好的啊，这些语言他们这些他们是同一个语系的，他们就比较好。还有一个地方就是说，呃CS这个语，呃这个语言我也不知道他是什么国家，呃他翻译他在训练的时候呢，他并不是对于自己，呃在测试的时候，他翻译到他自己并不是最好的，反而是他翻译到这个RO就是罗马尼亚呃语言的时候要反而比他自己翻译到自己还要好，我们看到这里对角线都是最好的，除了这个地方。除了这个CS，这个国家，他的语言翻译的时候，反而是跟别的国家的语言翻译成是最好的啊，这个是很有意思的一个点。那么整个呃，这个三个crosso的一个模型就讲解到这里，呃，当然的话，要是大家去使用的话，还是比较建议用face直接调用一下，但是呢，呃，那么这里面涉及到一个问题，就你到底用哪一种模型预训练的模型比较好呢？首先你要去判断你自己的那个预期，呃，你的任务里面，比方说你是一些小语种，比方说可能是韩文，然后和中中文，那你可能就要看。
32:18
这里面到底哪一些预训练任务，他在你的那个语言上面训练过，其次的话尽量还是选M，因为我觉得比较新的语言肯定还是效果会比较好一些。这个都很正常吧，好，那么本期视频就到这儿，谢谢大家。

展开

我来说两句

0 条评论

登录后参与评论

作者

mathor

三种 Cross-lingual 模型 (XLM, XLM-R, mBART) 详解原创

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐