首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

RoBERTa在SuperGLUE得分逼近人类,甩baseline十多个点

大数据文摘出品

作者:宁静、曹培信

7月30日,文摘菌曾报道过,被谷歌XLNet全面刷爆的BERT,被Facebook升级后,变身"Robustly optimized BERT approach"——强力优化BERT方法,重新称霸GLUE、SQuAD和RACE三个排行榜。

在RACE测试集上的结果显示,RoBERTa的Accyracy相比BERT(large)提高了10个百分点,相比XLNet(large)提高了2个百分点。

现在,Facebook AI又将RoBERTa提交到了SuperGLUE,榜单显示RoBERTa已经领先Bert 15个百分点,表现直逼人类。

从GLUE到SuperGLUE:难度更大

SuperGLUE在GLUE设计的基础上,采用了一系列更加困难的语言理解任务,除了共同任务识别文本蕴涵(RTE)和 Winograd 模式挑战赛(WSC)外,还添加了常识推理和词义消除等任务,上表中给出的其他测试数据集包括:

CB短文本语料库

MultiRC真假问答任务数据集

COPA因果推理

WiC词义消岐

RoBERTa离人类还有多远

从SuperGLUE排行榜上看,RoBERTa的得分距离人类只有5.2分,但是NYU数据科学中心助理教授Sam Bowman在其推特上,关于这一排行榜RoBERTa直逼人类的表现也发表了看法。

SuperGLUE代表的是我们需要处理的35个任务中最难的几个。而对于35个中的大多任务,BERT 本身的性能就已经快接近极限了。

还有几点需要注意:

RoBERTa良好的表现很大程度受益于充足的数据集:ReCoRD和MultiRC。效果转移到数据不佳的任务比较困难。

WinoGender coref.accuracy表现较好,但代价是gender parity更差。

RTE模型在downward monotone inferences仍然表现较差:例如,它倾向于假设“所有的狗都喜欢抓它们的耳朵”。“所有动物都喜欢搔耳朵。”

Sam Bowman认为,他对觉得RoBERTa有个明显的天花板,而我们对于人类表现有一个比较低的估计,他敢打赌,接下来的5到10个百分点将变得相当难以突破。

让我们期待通过算力数据以及大模型(Transformer),人类到底能够将NLP推到什么程度吧!

点「在看」的人都变好看了哦

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190813A0CAV000?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券