Facebook等联合推出语言理解基准SuperGLUE，为模型提供更困难的挑战

AiTechYun

发布于 2019-08-19 15:18:45

4570

发布于 2019-08-19 15:18:45

文章被收录于专栏：ATYUN订阅号

编辑 | bie管我叫啥

发布 | ATYUN订阅号

Facebook AI Research与DeepMind，华盛顿大学和纽约大学合作，推出了SuperGLUE，这是一系列基准测试任务，用于衡量现代高性能语言理解的AI的性能。

SuperGLUE的前提是会话AI的深度学习模型已经达到了上限，需要更大的挑战。它使用BERT作为模型性能基准。

在SuperGLUE之前，纽约大学、华盛顿大学和DeepMind的研究人员于2018年4月为语言理解制定了通用语言理解评估（GLUE）基准。

SuperGLUE旨在使任务比GLUE更复杂，并鼓励构建能够掌握更复杂或细微差别的语言的模型。

GLUE根据NLU系统在九个英语句子理解任务上的表现，为一个模型分配了一个数值分数，比如斯坦福情感树库（SST-2），用于从一组在线电影评论数据中提取情感。

RoBERTa目前在GLUE的数字得分排行榜上排名第一，在9个GLUE任务中有4个具有最先进的性能。

SuperGLUE包含在一系列困难的NLP任务中测试创造性方法的新方法，这些任务侧重于机器学习的许多核心领域的创新，包括样本高效，转移，多任务和自我监督学习。

为了挑战研究人员，团队选择了各种格式的任务，有更细微的问题，尚未使用最先进的方法解决，并且很容易被人们解决。

新基准包括八项任务，用于测试系统遵循原因，识别因果关系，或在阅读短文后回答是或否问题的能力。

SuperGLUE还包含Winogender，一种性别偏见检测工具。SuperGLUE排行榜将在super.gluebenchmark.com在线发布。

论文中写道，“目前的问答系统主要关注琐事类型的问题，例如水母是否有大脑。这个新的挑战更进一步，要求机器详细阐述开放式问题的深入答案，例如水母如何在没有大脑的情况下活动？”

为了帮助研究人员创建强大的语言理解AI，纽约大学今天还发布了通用文本理解工具包Jiant的更新版本。

官网：

super.gluebenchmark.com

论文：

arxiv.org/abs/1905.00537

END

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2019-08-15，如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 ATYUN订阅号微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度