SOTA又换庄家！谷歌130亿参数多语言模型mT5重磅来袭，101种语言轻松迁移

新智元

发布于 2020-10-29 11:09:11

9360

发布于 2020-10-29 11:09:11

文章被收录于专栏：新智元

新智元报道

来源:google

编辑：白峰

【新智元导读】Facebook刚刚开源多语种机器翻译模型「M2M-100」，这边谷歌也来了。谷歌宣布，基于T5的mT5多语言模型正式开源，最大模型130亿参数，与Facebook的M2M相比，参数少了，而且支持更多语种。

前几天，Facebook发了一个百种语言互译的模型M2M-100，这边谷歌着急了，翻译可是我的老本行啊。

刚刚，谷歌也放出了一个名为 mT5的模型，在一系列英语自然处理任务上制服了各种SOTA。

你发，我也发，你支持100种，我支持101种！（虽然多这一种没有多大意义，但气势上不能输）

mT5是谷歌 T5模型的多语种变体，训练的数据集涵盖了101种语言，包含3亿至130亿个参数，从参数量来看，的确是一个超大模型。

多语言模型是AI的桥梁，但难以避免「有毒」输出世界上成体系的语言现在大概有7000种，纵然人工智能在计算机视觉、语音识别等领域已经超越了人类，但只局限在少数几种语言。

想把通用的AI能力，迁移到一个小语种上，几乎相当于从头再来，有点得不偿失。

所以跨语种成为了AI能力迁移的重要桥梁。

多语言人工智能模型设计的目标就是建立一个能够理解世界上大部分语言的模型。

多语言人工智能模型可以在相似的语言之间共享信息，降低对数据和资源的依赖，并且允许少样本或零样本学习。随着模型规模的扩大，往往需要更大的数据集。

C4是从公共网站获得的大约750gb 的英文文本的集合，mC4是 C4的一个变体，C4数据集主要为英语任务设计，mC4搜集了过去71个月的网页数据，涵盖了107种语言，这比 C4使用的源数据要多得多。

mC4中各种语言的网页数量

有证据表明，语言模型会放大数据集中存在的偏差。

虽然一些研究人员声称，目前的机器学习技术难以避免「有毒」的输出，但是谷歌的研究人员一直在试图减轻 mT5的偏见，比如过滤数据中含有偏激语言的页面，使用 cld3检测页面的语言，将置信度低于70% 的页面直接删除。

mT5：使用250000词汇，多语言数据采样策略是关键

mT5的模型架构和训练过程与T5十分相似，mT5基于T5中的一些技巧，比如使用GeGLU的非线性（Shazeer，2020年），在较大模型中缩放dmodel而不是dff来对T5进行改进，并且仅对未标记的数据进行预训练而不会出现信息丢失。

训练多语言模型的最重要的一点是如何从每种语言中采样数据。

但是，这种选择是零和博弈：如果对低资源语言的采样过于频繁，则该模型可能会过拟合；如果对高资源语言的训练不够充分，则模型的通用性会受限。

因此，研究团队采用Devlin和Arivazhagan等人使用的方法，并根据概率p（L）∝ | L |^α，对资源较少的语言进行采样。其中p（L）是在预训练期间从给定语言中采样的概率，| L |是该语言中样本的数量，α是个超参数，谷歌经过实验发现α取0.3的效果最好。

为了适应更多的语言，mT5将词汇量增加到250,000个单词。与T5一样，使用SentencePiece和wordPiece来训练模型。

Sentencepiece示意

那采样之后有的字符没覆盖到怎么办？

研究团队为了适应具有大字符集的语言（比如中文），使用了0.99999的字符覆盖率，但还启用了SentencePiece的「字节后退」功能，以确保可以唯一编码任何字符串。

为了让结果更直观，研究人员与现有的大规模多语言预训练语言模型进行了简要比较，主要是支持数十种语言的模型。

mT5专治各种SOTA，但基准测试未必能代表实力

截至2020年10月，实验中最大 mT5模型拥有130亿个参数，超过了所有测试基准，包括来自 XTREME 多语言基准测试的5个任务，涵盖14种语言的 XNLI 衍生任务，分别有10种、7种和11种语言的 XQuAD、 MLQA 和 TyDi QA/阅读理解基准测试，以及有7种语言的 PAWS-X 释义识别。