SQuAD2.0来了!新增5万人工撰写问题,且不一定有答案 | ACL最佳短论文

允中 发自 凹非寺 量子位 报道 | 公众号 QbitAI

SQuAD 2.0来了!

今日(6月13日),斯坦福NLP团队对外宣称,机器阅读理解数据集SQuAD(Stanford Question Answering Dataset)完成新一波更新,将由SQuAD 1.1版本迭代至SQuAD 2.0。

个中变化还是非常明显的。

SQuAD 2.0

斯坦福NLP官方说,相较SQuAD 1.1中的10万问答,SQuAD 2.0又新增了5万个人类撰写的问题——而且问题不一定有对应答案。

于是同时迭代的SQuAD 2.0测试系统,不仅要求机器能从对应段落中找到问题答案,还测试机器在没有对应答案时可以say No,而不是瞎猜。

这算是进一步加大了机器在精准回答方面的难度。

目前,人类表现分别是EM——精准匹配结果:86.831分,F1——模糊匹配:89.452分。

需要指出的是,SQuAD推出之初,2016年,斯坦福大学从维基百科上随机选取了500多篇文章,并进一步细分成两万多个段落。随后采用众包的方式,由人类阅读这些文章后,为每个段落提出五个问题,并对段落内的答案进行人工标注。

最后,终于构成了包含10万多个问题的阅读理解数据集SQuAD。

但争论也隐藏其中,并在今年“机器阅读理解能力击败人类”事件中彻底吵开了。

SQuAD风云

SQuAD数据集有两个衡量标准,EM和F1。

EM是精确匹配结果,也就是模型给出的答案与标准答案一模一样。

F1是模糊匹配,可以理解为机器答对了部分内容,是根据模型给出的答案和标准答案之间的重合度计算出来的

基于SQuAD的排名比拼,也是考察EM和F1两项成绩。

过去一年,大部分时间都是科大讯飞团队和微软不同团队的竞争。7月微软登顶,8月科大讯飞首次折桂,9、10两月基本是微软天下,11月讯飞再次创出最佳成绩。

然后风云突变。先是腾讯突然杀入,并成功在12月底霸榜。然而“好景不长”,微软亚洲研究院和阿里巴巴iDST团队今年初先后发力,再次创出历史最好成绩,并且首次“超越人类”——他们在EM成绩上都击败了“人类表现”。

于是就开始有声音说:人类已经在阅读理解上被机器超越了。

但也马上遭遇反驳。

学界一方面有人指出这种说法过于夸大不严谨。

另一方面也有人将矛头指向SQuAD数据集局限性的问题。

以色列巴伊兰大学的著名NLP研究者Yoav Goldberg,他专门写了个PPT,列出了SQuAD1.1的三大不足:

  • 受限于可以选择span来回答的问题;
  • 需要在给定的段落里寻找答案;
  • 段落里保证有答案。

无独有偶,DeepMind也专门发布了一篇名为NarrativeQA的论文谈论了这些问题。

他们认为,由于SQuAD问题的答案必须是给定段落中的内容,这就导致很多评估阅读理解能力应该用到的合情合理的问题,根本没法问。

同时,这种简单的答案通过文档表面的信号就能提取出来,对于无法用文中短语来回答、或者需要用文中几个不连续短语来回答的问题,SQuAD训练出来的模型无法泛化。

另外,SQuAD虽然问题很多,但其实用到的文章又少又短,这就限制了整个数据集词汇和话题的多样性。

因此,SQuAD上表现不错的模型,如果要用到更复杂的问题上,可扩展性和适用性都很成问题。

DeepMind的论文说,包括SQuAD在内的很多阅读理解数据集都“不能测试出阅读理解必要的综合方面”。

所以此次SQuAD 2.0的更新,一定程度上也可视为对上述问题的回应。

最新排名:猿辅导领队中国军团

当然,哪里有AI数据集竞赛,哪里就有不断刷新榜单的中国军团。

之前在SQuAD,中国代表团中的常客是科大讯飞、微软亚洲研究院,不过去年以来,阿里达摩院旗下的iDST和腾讯也成了大军中一员,甚至有几次还是头号玩家。

但是,SQuAD 1.1最新榜单里,成为中国军团领头羊的团队,可能会令你陌生——YUANFUDAO。

没错,就是那个主打在线教育的猿辅导。

当前猿辅导以EM83.520,F189.612的成绩,微微微落后于Google大脑&CMU团队,排名全球第二。

不过猿辅导虽然是SQuAD的新面孔,但在另一项知名机器阅读比赛MSMARCO中,早已霸气外露。

在3月27日的最新排名中,猿辅导位列MSMARCO全球第一。

而且成绩还超过了人类水准,当时猿辅导团队的两项测试得分为:49.72、48.02。而人类基准为47、46。

所以现在猿辅导出现在SQuAD 1.1全球玩家前列,实际也不算特别意外。

可顺路一提的是,中国军团在SQuAD 1.1最新榜单中实力确实超强,前十排名中,随处可见中国团队。

这才叫:厉害了,我的国。

SQuAD2.0论文传送门:

https://arxiv.org/abs/1806.03822

原文发布于微信公众号 - 量子位(QbitAI)

原文发表时间:2018-06-13

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏TEG云端专业号的专栏

腾讯征战CWMT2018获英汉翻译和总成绩第一

37740
来自专栏新智元

【综述】语言分析技术在社会计算中的应用

中国中文信息学会社会媒体处理专委会 传统社会科学研究中的数据主要通过调查问卷或口头采访等方式获取,既耗时耗力,数据规模也很受限。进入互联网时代后,人类社会越来越...

39050
来自专栏机器之心

人工智能能骗过人类吗?愚人节特写:这不是玩笑

机器之心原创 作者:吴攀 人类自开始认识自己以来,大概就一直在梦想着能创造能与自己别无二致的存在(从偃师献给周穆王的歌舞艺伎到弗兰肯斯坦的怪物再到近段时间以来越...

36990
来自专栏腾讯高校合作

CCF-腾讯犀牛鸟基金五周年系列报道(三)——笃行致远-2017年CCF-腾讯犀牛鸟基金成果分享(上篇)

? 学海无涯,业界无边。如何将日新月异的产业发展与枝繁叶茂的学术生态做扎实有效的对接,将无限的创想化为落地的实践,始终是激励CCF-腾讯犀牛鸟基金不断探索的初...

52010
来自专栏腾讯高校合作

以“犀牛鸟的名义”,为青年学者打call

2016年度CCF-腾讯犀牛鸟基金共计支持18项科研基金,22项创意基金。在过去的一年中,基金获奖者与腾讯研发团队在前沿科技领域的开展深入合作。 双方根据共同关...

36760
来自专栏量子位

连线Face++前方团队:COCO夺冠背后的细节,不是拼硬件这么简单

李根 发自 凹非寺 量子位 报道 | 公众号 QbitAI 昨天,量子位报道了中国团队再次称雄AI大赛,把谷歌微软和FB甩在身后的消息。 简而言之,在计算机视...

567120
来自专栏企鹅号快讯

李飞飞高徒新项目,一眼看穿你下届总统会选谁!

翻译 | AI科技科技大本营 参与 | 刘畅 编辑 | Donna 和很多人一样,我们会通过一个人的外表和穿着来判断其经济能力,也会通过字迹来判断其品性。但这篇...

22270
来自专栏AI科技评论

重磅丨直击“人机大战”第二轮:声纹识别百度小度1:1战平人类,比赛的背后究竟发生了什么?

如果说在上一轮人机大战的人脸识别对决中,由于小度对阵了并不擅长人脸识别的王峰,令比赛意义打了折扣,那么昨天进行的第二轮声音识别的人机大战,虽然最终只是战平,但对...

36550
来自专栏人工智能快报

日本科研人员利用人工智能预测放射性物质的扩散情况

日本东京大学工业科学研究所的科研人员近期证明,利用机器学习技术可以精确预测放射性材料的扩散情况。

8220
来自专栏量子位

用AI算法分析光影看到盲点:这项MIT新研究偷学到二娃技能

安妮 编译整理 量子位 出品 | 公众号 QbitAI 嗨少年,想不想来双透视眼? ? 虽然这听起来有些科幻,但近日,麻省理工学院(MIT)计算机科学和人工智能...

40370

扫码关注云+社区

领取腾讯云代金券