前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >RoBERTa在SuperGLUE得分逼近人类,甩baseline十多个点

RoBERTa在SuperGLUE得分逼近人类,甩baseline十多个点

作者头像
大数据文摘
发布2019-08-18 17:54:06
4710
发布2019-08-18 17:54:06
举报
文章被收录于专栏:大数据文摘

大数据文摘出品

作者:宁静、曹培信

7月30日,文摘菌曾报道过,被谷歌XLNet全面刷爆的BERT,被Facebook升级后,变身"Robustly optimized BERT approach"——强力优化BERT方法,重新称霸GLUE、SQuAD和RACE三个排行榜。

在RACE测试集上的结果显示,RoBERTa的Accyracy相比BERT(large)提高了10个百分点,相比XLNet(large)提高了2个百分点。

现在,Facebook AI又将RoBERTa提交到了SuperGLUE,榜单显示RoBERTa已经领先Bert 15个百分点,表现直逼人类。

从GLUE到SuperGLUE:难度更大

SuperGLUE在GLUE设计的基础上,采用了一系列更加困难的语言理解任务,除了共同任务识别文本蕴涵(RTE)和 Winograd 模式挑战赛(WSC)外,还添加了常识推理和词义消除等任务,上表中给出的其他测试数据集包括:

  • CB短文本语料库
  • MultiRC真假问答任务数据集
  • COPA因果推理
  • WiC词义消岐

RoBERTa离人类还有多远

从SuperGLUE排行榜上看,RoBERTa的得分距离人类只有5.2分,但是NYU数据科学中心助理教授Sam Bowman在其推特上,关于这一排行榜RoBERTa直逼人类的表现也发表了看法。

SuperGLUE代表的是我们需要处理的35个任务中最难的几个。而对于35个中的大多任务,BERT 本身的性能就已经快接近极限了。

还有几点需要注意:

  • RoBERTa良好的表现很大程度受益于充足的数据集:ReCoRD和MultiRC。效果转移到数据不佳的任务比较困难。
  • WinoGender coref.accuracy表现较好,但代价是gender parity更差。

RTE模型在downward monotone inferences仍然表现较差:例如,它倾向于假设“所有的狗都喜欢抓它们的耳朵”。“所有动物都喜欢搔耳朵。”

Sam Bowman认为,他对觉得RoBERTa有个明显的天花板,而我们对于人类表现有一个比较低的估计,他敢打赌,接下来的5到10个百分点将变得相当难以突破。

让我们期待通过算力数据以及大模型(Transformer),人类到底能够将NLP推到什么程度吧!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-08-13,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据文摘 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 从GLUE到SuperGLUE:难度更大
  • RoBERTa离人类还有多远
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档