前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >[AI新知] AI研究人员携手发表更严格的自然语言效能评测平台SuperGLUE

[AI新知] AI研究人员携手发表更严格的自然语言效能评测平台SuperGLUE

作者头像
阿泽
发布2019-08-20 16:31:34
4300
发布2019-08-20 16:31:34
举报

导读

许多对话式AI系统的自然语言处理表现,已经超越既有GLUE平台能够评测的境界,需要另一个具备更高难度挑战的评测平台,也就是SuperGLUE

Facebook AI、DeepMind、纽约大学与华盛顿大学的AI研究人员,在本周共同发表了SuperGLUE平台,这是一个专门用来测量人工智慧(AI)自然语言处理(NLP)能力的效能评测平台,原因是有愈来愈多的对话式AI系统在许多不同的评测上已达到上限,需要更大的挑战来改善它们的NLP能力。

这是因为涵盖各种NLP任务的GLUE效能评测平台问世不到一年,便有许多NLP模型超越了GLUE上的人类基准效能。研究人员说明,AI社群的合作、NLP竞赛、各种评测平台的出炉、以及程式码的释出,都让AI模型快速改善,在GPT与BERT出炉后,GLUE上的模型效能更是大跃进,最近的模型已然超越人类效能。

不过,即使它们能够超越GLUE上特定任务的人类效能,却依然无法解决某些人类得以完美完成的任务,为了替NLP研究设定一个全新且更高的门槛,SuperGLUE于焉诞生。

SuperGLUE包含8种不同的任务,其中一之为「选择合理的替代方案」( Choice of Plausible Alternatives,COPA),这是一个因果推理任务,系统先得到一个前提,之后即必须从两个可能的选择中判断其因果,人类在COPA任务的准确性通常可达100%,而BERT则是74%,代表AI模型还有很大的进步空间。

再以最近表现最佳的RoBERTa模型为例,它击败了目前所有的NLU系统,也在「多重句子阅读理解」(Multisentence Reading Comprehension,MultiRC)任务上超越人类效能,但在SuperGLUE上测试RoBERTa之后发现,RoBERTa在许多任务的表现上依然不及人类,说明了即使是当今最先进的NLU系统,还是存在著某些侷限性。

此外,研究人员还打造了该领域首个长篇问答资料集与效能评测,要求机器提供複杂且长篇的答案,这是现有演算法从未被挑战过的事。目前的问答系统主要为简答题,像是「水母有脑吗?」而新的挑战则是希望机器能够理解更开放的问题并提供更具深度的答案,例如「没有脑的水母怎麽运作?」以期推动AI可合成不同来源的资讯,并正确回应这类的开放式问题。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-08-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Flink实战应用指南 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档