前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Google发布新的问答语料库,专攻篇章级的NLU问题

Google发布新的问答语料库,专攻篇章级的NLU问题

作者头像
AI科技大本营
发布2019-05-06 10:56:05
6360
发布2019-05-06 10:56:05
举报

译者 | Linstancy

整理 | Jane

出品 | AI科技大本营(ID:rgznai100)

开放域的问答(QA)是自然语言理解(NLU)中的一项基本任务,旨在模拟人是如何通过阅读和理解完整的文档,从而寻找信息、发现问题的答案。例如,对于“天空为什么是蓝色的?”这一问题,QA 系统应能够阅读相关网页 (如维基百科页面) 并给出正确答案,即使答案有点复杂和冗长。

然而,目前还没有大规模、公开可用的自然表述问题数据源(即那些寻求答案的人所提出的问题)以及可用于训练和评估 QA 模型的答案数据源。这是因为要收集用于问答研究的高质量数据集需要大量的实际问题,而构建正确答案还需要大量人力。

NQ 数据集

NQ 是第一个使用自然表述问题的数据集,并且可通过阅读整个页面来查找答案,而不是从某一段落中提取答案。为了创建 NQ 数据集,研究者从用户向 Google 搜索引擎提交的真实、匿名、汇总的问题开始。然后,让注释者通过阅读整个维基百科页面来寻找答案,就像问题是他们所提出的那样。而注释器既会查找长篇幅的答案,涵盖有助推断答案的信息,也会查找使用一个或多个实体回答的简单答案。测试 NQ 语料库中注释质量的准确率达到了 90%。

为了促进 QA 领域研究的进展,Google 研究团队近期开源了一个用于训练和评估开放域问答系统的大规模语料库 Natural Question (NQ),这也是第一个复制端到端问答流程的语料库。NQ 是一个很大的数据库,包括 300000 个自然表述问题,以及来自维基百科页面的人类标注的答案信息。同时,它也是专门用于训练 QA 系统的一个语料库。

此外,研究者还加入了 16000 个示例,相同的问题由 5 个不同的注释器提供答案,这对于评估 QA 系统的学习性能非常有用。相比回答一些计算机已经能够胜任的无关紧要的问题,回答 NQ 语料库中的问题则需要对问题有更深入的理解。因此,Google 官方还发布了一项基于这些数据的挑战项目,来帮助推进自然语言理解领域的研究。

在 NQ 数据集网站上查看更多示例:

https://ai.google.com/research/NaturalQuestions/visualization

研究论文地址:

https://ai.google/research/pubs/pub47761

挑战赛

这个项目还有很多的挑战与困难有待解决,研究者希望 NQ 数据集的发布,并通过举办相关任务的比赛,可以推动研发更有效、更强大的 QA 系统。同时,Google 也鼓励 NLU 社区参与进来,关于比赛的更多信息,可以访问:

https://ai.google.com/research/NaturalQuestions/

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-01-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI科技大本营 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档