专栏首页AI科技评论改进版 BERT 打败 XLNet ,Facebook 公布研究细节

改进版 BERT 打败 XLNet ,Facebook 公布研究细节

去年 10 月,被誉为「最强 NLP 预训练模型」的 Bert 问世,横扫 11 项 NLP 任务记录。随后问世的 XLNet 打破了这些记录,在 20 项任务上全面超越 BERT。然而,不久前,Facebook 的最新成果,BERT 改进版本——RoBERTa 打败 XLNet 登上了 GLUE 排行榜榜首。

相关论文地址:

https://arxiv.org/pdf/1907.11692.pdf

GitHub 地址:

https://github.com/pytorch/fairseq/tree/master/examples/roberta

论文由 Facebook AI 和华盛顿大学共同完成,其摘要如下:

语言模型的预训练已经带来了显著的性能提升,但是仔细比较不同的方法是具有挑战性的。训练的计算代价很高,通常在不同的私有数据集上进行,我们将表明尺寸和超参数的选择对最终结果有重大影响。我们提出了对 BERT 预训练的复制研究,该研究仔细测量了许多关键超参数和训练数据大小对结果的影响。我们发现 BERT 明显缺乏训练,并且可以匹配或超过在此之后发布的每个模型的性能。我们最好的模型在 GLUE, RACE 和 SQuAD 上取得了最先进的成果。这些结果突出了以前被忽视的设计选择的重要性,并对最近报道的结果进步的来源提出了疑问。我们公布了我们的模型和代码。

论文的主要贡献是:

  1. 提出了一套重要的 BERT 设计选择和训练策略及其介绍;
  2. 使用了一个新的数据集 CCNEWS,并确认使用更多的数据进行预训练可以进一步提高下游任务的性能
  3. 文中的训练改进表明,在设计选择正确的情况下,遮蔽语言模型与所有其它最近提出的方法相比非常具有竞争力。

改进版 BERT,即 RoBERTa(Robustly Optimized BERT approach)重复了 BERT 的预训练过程,它和 BERT 的区别有以下几点:

  • 训练模型的时间更长
  • 对更多的数据进行更大的批处理
  • 删除下一句预测目标
  • 训练更长的序列
  • 以及动态地更改应用于训练数据的 masking 模式

如前文所述,该模型在 GLUE, RACE 和 SQuAD 上取得了最先进的成果。在参数 L = 24, H = 1024, A = 16, 355M 的情况下,作者在 BERT-large 结构上训练 RoBERTa,结果如下图所示:

在控制训练数据,可以观察到 RoBERTa 比最初报告的 BERT-large 的结果大大提升,这再次证明了设计选择的重要性。

然后,将此数据与另外三个附加数据集相结合,采用的训练步骤数量与之前相同(100k),总共预处理的文本超过 160GB。所有下游任务的提升,验证了预训练中的数据规模和多样性。

作者对 RoBERTa 进行了大量的预处理,将预训练的步骤数量从 100K 增加到 300K,然后再增加到 500K。可以看到下游任务的显著性能提升,在大多数任务中,300k 和 500k 训练步骤的模型优于 XLNetLarge。

还可以注意到的是,即便训练的时间再长也不会产生过拟合,而是可能会受益于额外的训练。作者发现模型训练的时间越长,性能就可以大大提高。

目前,他们还使用了一个新的数据集,并发布相关模型和预训练微调代码,可以点击打开以下网址查看:

https://github.com/pytorch/fairseq

本文分享自微信公众号 - AI科技评论(aitechtalk),作者:skura

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-08-02

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 预训练后性能反而变差,自训练要取代预训练了吗?

    早在2018年底,FAIR的研究人员就发布了一篇名为《Rethinking ImageNet Pre-training》的论文 ,这篇论文随后发表在ICCV20...

    AI科技评论
  • 业界 | 如期而至!谷歌开源 BERT 模型源代码

    AI 科技评论按:自上个月谷歌公开 BERT 模型以来,BERT 模型以其双向、深层等特点,成功在 11 项 NLP 任务中取得 state of the ar...

    AI科技评论
  • NLP领域预训练模型的现状及分析

    小牛翻译,核心成员来自东北大学自然语言处理实验室,由姚天顺教授创建于1980年,现由朱靖波教授、肖桐博士领导,长期从事计算语言学的相关研究工作,主要包括机器翻译...

    AI科技评论
  • BERT王者归来!Facebook推出RoBERTa新模型,碾压XLNet 制霸三大排行榜

    前不久,CMU和谷歌大脑提出的XLNet预训练模型在 20 项任务上全面碾压曾有“最强NLP预训练模型”之称的BERT,可谓风光无限,吸足了眼球。

    新智元
  • 新一届最强预训练模型上榜,出于BERT而胜于BERT

    【导读】预训练方法设计有不同的训练目标,包括语言建模、机器翻译以及遮蔽语言建模等。最近发表的许多论文都使用了微调模型,并预先训练了一些遮蔽语言模型的变体。然而,...

    AI科技大本营
  • 5.训练模型之利用训练的模型识别物体

    接下来我们开始训练,这里要做三件事: 将训练数据上传到训练服务器,开始训练。 将训练过程可视化。 导出训练结果导出为可用作推导的模型文件。 配置 Pipelin...

    刘盼
  • 预训练后性能反而变差,自训练要取代预训练了吗?

    早在2018年底,FAIR的研究人员就发布了一篇名为《Rethinking ImageNet Pre-training》的论文 ,这篇论文随后发表在ICCV20...

    AI科技评论
  • 重回榜首的BERT改进版开源了,千块V100、160GB纯文本的大模型

    BERT 自诞生以来就展现出了卓越的性能,GLUE 排行榜上前几名的模型一度也大多使用 BERT。然而,XLNet 的横空出世,打破了 BERT 的纪录。不过,...

    代码医生工作室
  • 重回榜首的BERT改进版开源了,千块V100、160GB纯文本的大模型

    BERT 自诞生以来就展现出了卓越的性能,GLUE 排行榜上前几名的模型一度也大多使用 BERT。然而,XLNet 的横空出世,打破了 BERT 的纪录。不过,...

    机器之心
  • 英特尔开发模型训练新技术,效率更高且不影响准确性

    一般而言,AI模型的大小与其训练时间相关,因此较大的模型需要更多的时间来训练。通过修剪可以优化数学函数(或神经元)之间的连接,从而减小其整体尺寸而不会影响准确性...

    AiTechYun

扫码关注云+社区

领取腾讯云代金券