AI 科技评论按,1 月 23 日,谷歌人工智能语言研究科学家 Tom Kwiatkowski 和 Michael Collins 在 Google AI Blog 上发布了一篇博文,宣布发布一个新的大规模训练和评估开放领域问答系统的语料库 Natural Questions (NQ),旨在推动人们开发出更有效、更强大的问答系统。
开放域问答(QA)是自然语言理解(NLU)中的一项基准任务,旨在模拟人们如何寻找信息,通过阅读和理解整个文档来找到问题的答案。给出一个用自然语言表达的问题(「为什么天空是蓝色的?」)一个问答系统应该能够阅读网页(比如这个维基百科页面)并返回正确的答案,即便这个答案有点复杂和冗长。然而,目前还没有大量公开的可用于训练和评估问答模型的自然生成问题(如人们寻求信息时提出的问题)及答案。这是因为,为了回答问题而收集一个高质量的数据集,不仅需要大量真实的问题源,还需要大量的人力才能找到正确的答案。
为了推动问答系统的研究进展,他们很高兴地发布自然问题(Natural Questions,NQ),这是一个新的大规模训练和评估开放领域问题回答系统的语料库,它第一个复制了人们找到问题答案的端到端流程。NQ 很大,由 30 万个自然发生的问题以及维基百科页面上的人工注释答案组成,它们可以被用于训练问答系统。他们还包括 16000 个由 5 个不同的注释员标注了答案(对同一个问题)的例子,这有助于评估经过训练的问答系统的性能。对于计算机来说,回答琐事是很容易的。由于在 NQ 中回答问题需要比回答琐事对问题有更深入的理解,基于这些数据他们还组织了一次竞赛,以帮助推动计算机自然语言理解这项研究的进展。
数据
NQ 是首先使用自然发生的查询的数据集,它专注于通过阅读整个页面而不是从短段落中提取答案来查找答案。为了创建 NQ,他们从用户向谷歌搜索引擎提出的真实、匿名、聚合的查询开始。然后,他们要求注释员通过阅读整个维基百科页面来找到答案,就像问题是他们自己提出来的一样。注释员寻找包含推断答案所需的所有信息的长答案,以及简洁地用一个或多个词语回答问题的短答案。NQ 语料库中注释的准确度高达 90%。
NQ 旨在使问答系统能够阅读和理篇整个维基百科文章,这些文章可能包含问题的答案,也可能不包含问题的答案。首先,系统需要确定问题是否定义得足够好,可以回答——许多问题都包含错误的假设,或者描述太模糊,无法简明地回答。然后,他们需要确定维基百科页面中是否有任何部分包含推断答案所需的所有信息。他们认为,长答案识别任务——找到推断答案所需的所有信息——需要比在知道长答案后找到短答案更深入的语言理解水平。
他们的论文「Natural Questions: a Benchmark for Question Answering Research」,已在计算语言学协会学报上发表,文章对数据收集过程进行了全面的描述。要从数据集中查看更多示例,请访问 NQ 网站。
挑战赛
自然问题有一个 7842 个示例的盲测试集,其格式与发布的开发集完全相同。在此页面上创建一个配置文件以在测试集上运行模型,并查看它们的性能。为了保持测试集的完整性,每个团队每周只允许提交一次。你们可以在他们提供的 200 个示例 dev set 上运行测试。这个不限制次数。
要提交一个模型,您应该创建一个 Docker 映像,并按照 NQ 的 Github 页面上的说明将其上传到谷歌云存储库。
上传图像后,请登录此页面以显示提交表单。选择要显示在 NQ 排行榜上的模型名称,以及将在个人主页上显示的标签。
他们希望 NQ 的发布以及相关的挑战赛将有助于推动大家开发出更有效、更强大的 QA 系统。他们鼓励 NLU 社区参与并帮助缩小当前最先进方法与人类上限之间的巨大差距。请访问挑战赛网站,查看排行榜并了解更多信息。
挑战赛网址:
https://ai.google.com/research/NaturalQuestions
via:https://ai.googleblog.com/2019/01/natural-questions-new-corpus-and.html
领取专属 10元无门槛券
私享最新 技术干货