前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Google发布超难问答数据集「自然问题」:30万对问答,BERT都达不到70分

Google发布超难问答数据集「自然问题」:30万对问答,BERT都达不到70分

作者头像
量子位
发布2019-04-24 11:01:29
9110
发布2019-04-24 11:01:29
举报
文章被收录于专栏:量子位量子位
郭一璞 发自 凹非寺 量子位 报道 | 公众号 QbitAI

世界上最大的冰盖在哪里?

Google现在想到了一个办法能让AI来回答这个问题,他们开放了一个名叫自然问题(Natural Questions, NQ)的数据集,能够训练AI阅读维基百科,并找到各种开放领域问题的答案。

就拿“世界上最大的冰盖在哪里”这个问题来说,在维基百科“Ice sheet(冰盖)”词条,看到“Antarctic ice sheet(南极洲冰盖)”这个部分的时候,找到了相关的一个自然段的描述,这是该问题的长答案

之后,从这一段中得到“南极洲是世界上最大的冰盖”这个消息,于是找到了短答案

南极洲。

另外,还有一些问题是直接用长答案回答的。

比如说,“汉语里的“中国”是什么意思”这个问题,答案在“Names of China”这个维基百科词条里,以一段话的形式解释。

整个数据集包含三个部分:

1、超过30万组问答,其中训练集有307,372组问答,包含152,148组长答案问答和110,724组短答案问答; 2、开发示例问答,包含有7830组“一问五答”的问答,也就是同一个问题,找五个人分别从维基百科中寻找答案,以此来衡量QA问答系统的表现; 3、测试集有7842组问答。

整个标注的过程中,需要标注者阅读整个维基百科页面,看看有没有这个问题的答案,之后一方面要找包含所需信息的长答案自然段,另一方面要从中找一两个单词或词组作为短答案,整个数据集的精确度超过90%。

数据集中所有的问题都是用户在使用Google搜索时提出的,QA问答系统需要阅读整篇维基百科相关词条的文章,也不一定每个问题的答案都能找得到,因此NQ要比以前的QA数据集更具挑战性。

另外,Google还为这个数据集定制了一个排行,衡量不同算法在NQ数据集上的表现,目前,无论是长答案还是短答案,BERT都处在排行榜上的领先位置。

当然,因为数据集刚刚推出,现在参赛选手比较少,只有Google自家的两个算法,BERT和DecAtt-DocReader。

不过,在这个数据集上,两个算法的表现跟人类相比还有不小差距,人类搜寻长答案的F1分数是87%,比BERT高了十几个百分点;搜寻短答案的F1分数是76%,比BERT高了二十几个百分点。

最后,这个数据集相关的论文Natural Questions: a Benchmark for Question Answering Research已经发表在了TACL上。

传送门

NQ数据集 https://ai.google.com/research/NaturalQuestions

论文:Natural Questions: a Benchmark for Question Answering Research https://storage.googleapis.com/pub-tools-public-publication-data/pdf/b8c26e4347adc3453c15d96a09e6f7f102293f71.pdf

GitHub https://github.com/google-research-datasets/natural-questions

作者系网易新闻·网易号“各有态度”签约作者

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-01-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量子位 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 传送门
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档