导读
许多对话式AI系统的自然语言处理表现,已经超越既有GLUE平台能够评测的境界,需要另一个具备更高难度挑战的评测平台,也就是SuperGLUE
Facebook AI、DeepMind、纽约大学与华盛顿大学的AI研究人员,在本周共同发表了SuperGLUE平台,这是一个专门用来测量人工智慧(AI)自然语言处理(NLP)能力的效能评测平台,原因是有愈来愈多的对话式AI系统在许多不同的评测上已达到上限,需要更大的挑战来改善它们的NLP能力。
这是因为涵盖各种NLP任务的GLUE效能评测平台问世不到一年,便有许多NLP模型超越了GLUE上的人类基准效能。研究人员说明,AI社群的合作、NLP竞赛、各种评测平台的出炉、以及程式码的释出,都让AI模型快速改善,在GPT与BERT出炉后,GLUE上的模型效能更是大跃进,最近的模型已然超越人类效能。
不过,即使它们能够超越GLUE上特定任务的人类效能,却依然无法解决某些人类得以完美完成的任务,为了替NLP研究设定一个全新且更高的门槛,SuperGLUE于焉诞生。
SuperGLUE包含8种不同的任务,其中一之为「选择合理的替代方案」( Choice of Plausible Alternatives,COPA),这是一个因果推理任务,系统先得到一个前提,之后即必须从两个可能的选择中判断其因果,人类在COPA任务的准确性通常可达100%,而BERT则是74%,代表AI模型还有很大的进步空间。
再以最近表现最佳的RoBERTa模型为例,它击败了目前所有的NLU系统,也在「多重句子阅读理解」(Multisentence Reading Comprehension,MultiRC)任务上超越人类效能,但在SuperGLUE上测试RoBERTa之后发现,RoBERTa在许多任务的表现上依然不及人类,说明了即使是当今最先进的NLU系统,还是存在著某些侷限性。
此外,研究人员还打造了该领域首个长篇问答资料集与效能评测,要求机器提供複杂且长篇的答案,这是现有演算法从未被挑战过的事。目前的问答系统主要为简答题,像是「水母有脑吗?」而新的挑战则是希望机器能够理解更开放的问题并提供更具深度的答案,例如「没有脑的水母怎麽运作?」以期推动AI可合成不同来源的资讯,并正确回应这类的开放式问题。