机器这次击败人之后,争论一直没平息 | SQuAD风云

夏乙 发自 凹非寺 量子位 出品 | 公众号 QbitAI

又吵起来了。

只因为最近在阅读理解这件事上,人类又被机器给超越了。

哈?人类又一阵地失守了?AI对鲁迅作品的理解超过我了?

щ(゚Д゚щ) 可怕可怕……

就为了这件事,争吵一直没平息。

SQuAD风云

机器阅读理解,是一场竞争激烈的比拼。

竞技场是SQuAD。

尤其是中国团队开始“刷榜”之后。过去一年,大部分时间都是科大讯飞团队和微软不同团队的竞争。7月微软登顶,8月科大讯飞首次折桂,9、10两月基本是微软天下,11月讯飞再次创出最佳成绩。

然后风云突变。先是腾讯突然杀入,并成功在12月底霸榜。然而“好景不长”,微软亚洲研究院和阿里巴巴iDST团队今年初先后发力,再次创出历史最好成绩,并且首次“超越人类”。讯飞的成绩实际已经被甩在第12位了。

SQuAD被称为行业公认的机器阅读理解顶级水平测试,可以理解为机器阅读理解领域的ImageNet。它们同样出自斯坦福,同样是一个数据集,搭配一个竞争激烈的竞赛。

这个竞赛基于SQuAD问答数据集,考察两个指标:EM和F1。

EM是指精确匹配,也就是模型给出的答案与标准答案一模一样;F1,是根据模型给出的答案和标准答案之间的重合度计算出来的,也就是结合了召回率和精确率。

目前阿里、微软团队并列第一,其中EM得分微软(r-net+融合模型)更高,F1得分阿里(SLQA+融合模型)更高。但是他们在EM成绩上都击败了“人类表现”。

这就是最近讨论特别激烈的阅读理解机器击败人类。

注意看,在F1得分上,代表了目前机器最先进水平的阿里和人类还有4.614分的距离。

好了,成绩公布完了,我们来讲讲试卷。

试题太简单了

实打实的科学结果,看起来人类真的又败了。

别慌别慌。

“机器超越人类”的新闻每次铺天盖地出现,都会搭配着一波祛魅的声音,这次也不例外。比如说斯坦福NLP小组的官方twitter,就转发了这么一条:

有几个模型在SQuAD数据集上超过了人类基线,就说机器学习在阅读理解上超过人类,简直是疯了。这个进展很棒,但是咱们别夸大好么~

机器取得了这么好的成绩,比赛主办方斯坦福NLP小组大概心里也不踏实。他们在Twitter上转发了一条回复:

在更复杂的数据集上测试一下这些模型怎么样?我感觉SQuAD已经被探索得差不多了,也不需要什么“理解”。好像整个研究界都在这个数据集上过拟合了。

那么,这套可能已经被学术圈玩透了的测试究竟什么样?

2016年,斯坦福大学从维基百科上随机选取了536篇文章,随后采用众包的方式,由人类阅读这些文章后,提出问题并人工标注出答案,构成了包含10万多个问题的阅读理解数据集SQuAD。

对于这样一个数据集,以色列巴伊兰大学的著名NLP研究者Yoav Goldberg的评价是太局限(restricted)了。

早在好几个月之前,AI在SQuAD上接近人类得分的时候,Goldberg就专门写了个PPT,把SQuAD批判了一番。

他列举了SQuAD的三大不足:

  • 受限于可以选择span来回答的问题;
  • 需要在给定的段落里寻找答案;
  • 段落里保证有答案。

对于这些不足,DeepMind前不久发布的NarrativeQA论文做了更详细的说明。

他们认为,由于SQuAD问题的答案必须是给定段落中的内容,这就导致很多评估阅读理解能力应该用到的合情合理的问题,根本没法问。

同时,这种简单的答案通过文档表面的信号就能提取出来,对于无法用文中短语来回答、或者需要用文中几个不连续短语来回答的问题,SQuAD训练出来的模型无法泛化。

另外,SQuAD虽然问题很多,但其实用到的文章又少又短,这就限制了整个数据集词汇和话题的多样性。

因此,SQuAD上表现不错的模型,如果要用到更复杂的问题上,可扩展性和适用性都很成问题。

DeepMind的论文说,包括SQuAD在内的很多阅读理解数据集都“不能测试出阅读理解必要的综合方面”。

Goldberg还从SQuAD中随机抽取了192个例子,具体分析了这个数据集的缺陷。他想看看,这些问题的答案是不是过于简单,需要经过怎样的推理。

结果是,有33.3%的问题需要同义词替换,9.1%的问题需要一些常识,64.1%的问题需要对句子结构做一些变换,13.6%的问题需要通过多个句子进行推理。

但这些问题所需的“推理”,其实也都不难。比如说下边这个例子,抓住了Shakespeare scholar这个关键词,就迎刃而解:

需要多个综合多个句子的,其实也不难:

所以他说,SQuAD中的问题,只要找到合适的模板匹配方法,都能蒙混过关。

这基本上相当于,你家AI已经上初中了,你却还在考它两位数的加减法。

人类代表好像也不太行

SQuAD虽然对AI来说简单,但对于人类来说却不见得。

我们知道,人类在这个阅读理解数据集上,EM分数是82.304,F1得分是91.221。不过,这个“人类代表”的分数究竟是怎么算出来的呢?

在评估人类成绩的时候,SQuAD团队从每个问题的3+个答案中,选择第二个作为人类答案,其他答案作为正确答案。在EM结果上,如果第二个答案和其他答案中的任何一个完全相同就算对,不同就算错;在F1结果上,会根据第二个答案与其他答案的重合度,得出一个0-1之间的分值。

很不幸,作为人类,我们各有各的习惯。就算是从文章中选择短语来回答,选择的内容长度也不一样。

Goldberg说,人类的“错误”,大部分都“错”在了选择的内容边界不一样,如果让几个人投票选出支持率最高的答案,人类的得分就会大幅提高。

在“输给AI”的时候,我们人类也会有这样一个疑问:这场比赛是谁代表了我们?

还是很不幸,代表人类的是SQuAD团队在众包平台MTurk上招募的兼职人员,他们需要在两分钟内回答5个问题,每个问题赚16美分。不得不说,量子位是不太相信这波人类代表对待比赛的认真程度……

微软亚洲研究院团队也说,SQuAD的成绩并不能代表计算机超越了人类的阅读理解水平,“超越人类”也不该作为媒体报道的噱头。

AI还是值得表扬的

虽说“超越人类”有点夸大了,但是,这两年AI在SQuAD上的成绩的确进步神速。

这个数据集2016年10月发布时,斯坦福的团队自己也建了个逻辑回顾模型,在SQuAD上的F1得分是51%。

经过科研界一年多的折腾,前三名的EM得分已经全数超过80,F1得分也在向90分逼近,在这个数据集上全面超越人类指日可待。

最后,为了给人类增强信心,我们挑了几个AI出错的地方。

来让大家“嘲讽”一下,缓解下紧张的情绪……

请听题。

这是个跟氧气有关的词条。其中有个问题是:What is the second most abundant element?(含量排名第二的元素是什么?)

这个答案在文中有明确的表述:By mass, oxygen is the third-most abundant element in the universe, after hydrogen and helium. (氧元素排第三,前面是氢、氦)

很清晰对么?

但是微软和阿里巴巴模型的回答都是:氧。

……

再看一个例子。

这是一个与华沙有关的词条。其中有个问题是:What is one of the largest music schools in Europe?(欧洲最大的音乐学校之一是哪个?)

答案在原文中是这么说的:…the Fryderyk Chopin University of Music the oldest and largest music school in Poland, and one of the largest in Europe, the Warsaw School of Economics, the oldest and most renowned economic university in the country…

微软的回答是:Warsaw School of Economics。

这……

好在,阿里回答对了。

原文发布于微信公众号 - 量子位(QbitAI)

原文发表时间:2018-01-20

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据挖掘DT机器学习

两个月入门深度学习,全靠动手实践

向AI转型的程序员都关注了这个号??? 搞CNN的工程应用有一段时间了,特别是在计算机视觉领域。分享下我自己的CNN学习历程。 简单的说,深度学习就是模仿人脑...

49380
来自专栏新智元

深度学习到顶,AI寒冬将至!

19520
来自专栏AI科技评论

学界 | 顶会见闻系列:ICLR 2018 和 ICLRA 2018

Alex Irpan 本科毕业于 UC 伯克利大学的计算机科学专业,在伯克利人工智能 AI 研究所(BAIR)做的本科毕业设计,导师为 Pieter Abbee...

9930
来自专栏ATYUN订阅号

【学术】新的神经网络即将问世,它看起来很恐怖

? 这一切是怎么开始的? 生成式对抗网络进展 将典型的和经过良好研究的神经网络(如图像分类器)看作是神经网络技术的大脑左半球。考虑到这一点,很容易理解什么是生...

38470
来自专栏AI科技评论

吴恩达专访LeCun:即便在神经网络的寒冬,我也坚信它终会重回公众视野

时隔半年,终于等来了 Yann LeCun 回忆杀视频。 去年 8 月时,随着 deeplearning.ai 深度学习教学网站和系列课程的发布,吴恩达也在「t...

28850
来自专栏计算机视觉战队

基于图像的场景三维建模

三月已过半旬,已是春暖花开的季节,也是我们科研爱好者最繁忙的一段时间。春天的到来,意味着新一届的学子即将离开学校,走向自己人生的第二段道路,也意味着您年伊始,所...

46590
来自专栏PPV课数据科学社区

数学专业的学生如何看待机器学习和大数据这些方向呢?

页尾更多“数学”“机器学习”“大数据”干货! 我是计算机专业的研究生。上个学期选修了数学学院的两门课:《组合最优化》和《NP复杂性与近似算法》,因此认识了一些数...

374130
来自专栏华章科技

深度学习到顶,自动驾驶出事故,AI的寒冬来了?

导读:多年来,深度学习一直处于所谓的人工智能革命的最前沿,许多人相信深度学习将带领我们进入通用AI时代。然而,从12,13年甚嚣尘上,到如今的尘埃落地,浪潮一再...

11030
来自专栏机器之心

学界 | 天河二号制定「量子霸权」标准,国防科大与上海交大联合发表NSR论文

量子霸权的实现,将是量子计算发展的一座重要里程碑,代表「量子计算的超强计算能力」自 37 年前提出以来首次从理论走进实验,标志一个新的计算能力飞跃时代的开始。近...

10720
来自专栏机器之心

重磅 | 微软首席人工智能科学家邓力离职,加盟对冲基金巨头Citadel

机器之心独家 作者:李亚洲 微软人工智能首席科学家、IEEE Fellow 邓力向机器之心透露,他已从微软离职,加入对冲基金公司 Citadel 担任首席人工智...

56980

扫码关注云+社区

领取腾讯云代金券