AI研究人员推出更严格的SuperGLUE语义理解基准测试

文章来源：企鹅号 - Tech科技前沿

Facebook 人工智能研究员和 Google 旗下的 DeepMind、华盛顿大学、以及纽约大学合作，于今日正式推出了 SuperGLUE 。作为一个严格的语义理解基准测试项目，其能够针对现代高性能语义理解 AI 的性能，展开一系列的基准测试。当然，SuperGLUE 投入使用的前提，是某会话 AI 的深度学习模型已经触及了天花板，并希望接受更大的挑战。

（图自：SuperGLUE，viaVentureBeat）

SuperGLUE 使用谷歌的 BERT 作为性能基准模型，因为早在 2018 年的时候，它就已经在多方面被认为是最先进的、甚至打败了新一年的诸多竞争对手，比如微软的 MT-DNN、谷歌自家的 XLNet、以及 Facebook 的 RoBERTa 。

SuperGLUE 的前身，是纽约大学、华盛顿大学和 DeepMind 研究人员于 2018 年 4 月推出的针对语义理解 AI 的‘通用语义理解评估’（GLUE）基准测试。

发展到现在的 SuperGLUE，它能够评估比 GLUE 更复杂的任务表现，鼓励构建能够账务更复杂或细微差别的语义理解模型。

据悉，GLUE 能够根据 AI 对自然语言理解（NLU）系统给出的九个英语短句的识别处理表现，而给出该模型的分值，比如在线影视评论数据集中提取情感细节的斯坦福情感树库（SST-2）。

目前 RoBERTa 在 GLUE 基准测试数据库中的得分为榜上第一，但 9 项 GLUE 任务中拿到了 4 项最高分。不过 SuperGLUE 包含了在一系列困难的 NLP 任务中测试创造性解决方案的新方法。

Facebook AI 研究人员在一篇博客文章中称：这些任务侧重于机器学习在诸多核心领域的创新，包括高效采样、转运、多任务、以及自我监督学习。

为向其他研究人发出挑战，SuperGLUE 选择了各种形式的任务、更加细致的问题、尚未被最先进方案所解决的内容、以及很容易被人类理解的题目。

简而言之，新基准测试包括了八项任务，用于测试 AI 语义理解模型是否遵循基本的因果关系、或者是否在做阅读理解时出现了偏差。

—The End—

发表于: 2019-08-152019-08-15 12:32:19
原文链接：https://kuaibao.qq.com/s/20190815A0BIBN00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

AI研究人员推出更严格的SuperGLUE语义理解基准测试

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐