前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >使用COVID-19开放式研究数据集从未标记数据中学习

使用COVID-19开放式研究数据集从未标记数据中学习

作者头像
磐创AI
发布2020-07-01 15:43:43
1.1K0
发布2020-07-01 15:43:43
举报
文章被收录于专栏:磐创AI技术团队的专栏

磐创AI分享

来源 | towardsdatascience

编译 | Flin

作者 | Thiago G. Martins

【导读】COVID-19开放研究数据集可以帮助研究人员和卫生界抗击全球流行病。Vespa团队(https://vespa.ai/) 正在发布一个基于数据集的搜索应用程序(https://cord19.vespa.ai/)。

由于数据没有可靠的标签来判断一个搜索结果是好是坏,我们希望提出客观的标准来评估搜索结果,而不是依赖于人类注释的标签。我们使用这个准则进行实验,并评估术语匹配和语义信号所传递的值。然后我们证明,即使考虑到专门为科学文本设计的模型的微调版本,语义信号也会产生糟糕的结果。

由艾伦人工智能研究所(https://allenai.org/) 发布的COVID-19开放研究数据集(CORD-19)包含44000多篇学术文章,包括29000多篇全文关于COVID-19和冠状病毒家族的文章,供全球研究界使用。

它的发布是为了动员研究人员应用自然语言处理的最新进展,以产生新的见解,支持对抗这种传染病。它确实做到了。

它一发布,就有一个Kaggle挑战(https://www.kaggle.com/allen-institute-for-ai/CORD-19-research-challenge/) 、一个数据集浏览器(https://cord-19.apps.allenai.org/) 、经过微调的嵌入模型(https://github.com/gsarti/covid-papers-browser) 和收集标记数据的竞赛:

相关推特:https://twitter.com/kirk_roberts/status/1242549116539932680

考虑到我最近在MS MARCO数据集中使用含有强烈术语匹配偏差的标签的经验,以及我们在 https://vespa.ai/ 希望快速建立一个围绕CORD-19数据集的搜索应用程序(https://cord19.vespa.ai/) 的事实,我决定花一些时间考虑如何在没有标记数据的情况下,在不同的匹配标准和排序函数之间进行评估。

文本搜索的客观标准

其目标是要有一个客观的标准,并摆脱“它看起来足够好”的标准,这是在没有可靠标签时通常使用的标准。我的建议很简单,我们可以使用文章的标题作为查询,并将相关的摘要作为查询的相关文档。

此标准很简单,因为我们不依赖人工注释,因此可以扩展到大量数据,这很有意义。这样想,如果你使用标题作为一个查询,而给定的方法无法检索到正确的摘要,就将其包含在结果列表的前100名中,我们有一个非常次优的排序函数,用于CORD-19搜索应用程序的上下文。

结果

本节对所获得的一些结果进行了总结。我们在这里报告三个重要的指标。与查询匹配的文档百分比、前100个位置的召回率以及考虑返回的前100个文档的平均倒数排序(MRR)。

术语匹配

表1显示了使用术语匹配信号BM25评分(https://docs.vespa.ai/documentation/reference/bm25.html) 对文档进行排序得到的结果。第一行显示了仅将文档与包含标题中每个单词的摘要(和操作符)匹配时的结果。这种方法限制太多,只匹配一小部分文档(0.01%),因此遗漏了许多相关的摘要,导致较差的召回率和MRR指标(分别为20%和19%)。

第二行匹配所有包含标题(或操作符)至少一个单词的摘要的文档。这太宽泛了,几乎匹配了语料库中的所有文档(89%),但却获得了良好的召回率和MRR指标(分别为94%和80%)。

当使用Vespa weakAND操作符(https://docs.vespa.ai/documentation/using-wand-with-vespa.html) 时,得到了一个中间立场。它跳过了许多基于简单计算的术语匹配方程的文档,使得它只匹配了19%的语料库,同时保留了可对比的召回率和MRR度量(分别为95%和77%)与更昂贵的OR运算符检索到的数据。我们还可以调优使用weakAND检索多少文档。在本例中,我们将它设置为1.000个文档,以便与语义搜索实验中使用的最近邻操作符进行比较。

语义搜索

表2的第一行是通过语义搜索得到的结果。在这个实验中,我们决定使用SciBERT -nli模型(https://github.com/gsarti/covid-papers-browser) ,它是AllenAI的SciBERT模型(https://www.aclweb.org/anthology/D19-1371/) 的一个微调版本。我们对这个模型抱有很高的期望,因为它是一个经过微调的模型,设计用于科学文本。

然而,结果并没有达到我们的预期。我们平均检索了约14%的语料库,Vespa nearestNeighbor操作符(https://docs.vespa.ai/documentation/reference/query-language-reference.html#nearestneighbor) 被设置为检索1.000个文档。

这意味着我们根据标题和摘要嵌入之间的距离检索至少1.000个文档,其中嵌入是由scibert-nli模型(https://github.com/gsarti/covid-papers-browser) 构造的。排序函数被设置为标题和摘要嵌入之间的点积。这种设置导致了我们实验中最差的召回率和MRR(分别为17%和8%)。

当我看到结果时,第一个想到的是代码有问题。所以为了检查清楚,我决定运行相同的实验,但现在使用摘要作为查询。然后,任务变成了试图检索自身的摘要。如果设置正确,则结果应该(接近)完美,因为相同嵌入之间的距离应该大约为零(舍入误差除外)。

表2的第二行报告了这个健全性检查实验,并验证了我们的设置,获得了一个完美的召回和接近完美的MRR。这至少消除了将匹配阶段、排序函数和实验设置实现应用于嵌入时出现完全错误的可能性。因此,语义模型的糟糕性能继续给我们带来一个奇怪而令人惊讶的结果。

注意

为了避免语义搜索实验受到不公平的对待,我们尽最大努力整理数据,使其只包含有意义的标题和摘要。我们排除了许多标题或摘要明显错误的文章,如“作者索引”或“主题索引”。整理工作将文件数量从44000份减少到30000份左右。

之后,我们创建了标题和摘要嵌入,没有额外的预处理步骤,因为我们相信这是大多数人使用它的常规操作:

代码语言:javascript
复制
title_embedding = model(title)
abstract_embedding = model(abstract)

当然,如果有迹象表明它可以显著地改善结果,那么我们可以接受关于如何通过优化模型从文本构建嵌入的建议。所有的嵌入都被归一化(L2-norm)为长度1。

我们还结合了术语匹配和语义信号,但是与纯术语匹配设置相比没有任何明显的改进。

结论

表3总结了此处讨论的结果。迄今为止,最明显的赢家是weakAND + BM25组合。语义搜索获得的结果令人失望,值得进一步研究。

重要的是,要强调我们在搜索的上下文中,使用和评估了语义模型。这里报告的(糟糕的)性能不一定适用于其他语义任务。

具有客观标准来评估不依赖于人类注释数据的搜索结果,不仅对于没有显式标签的情况(例如CORD-19数据集)很重要。

它在处理带有偏置标签的数据集时也很有用,例如在MS MARCO数据集偏向于术语匹配信号(https://towardsdatascience.com/why-you-should-not-use-ms-marco-to-evaluate-semantic-search-20affc993f0b) 的情况下,而这可能是由于它的数据收集设计。

原文链接:https://towardsdatascience.com/learning-from-unlabelled-data-with-covid-19-open-research-dataset-cded4979f1cf

- End -

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-06-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 磐创AI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 【导读】COVID-19开放研究数据集可以帮助研究人员和卫生界抗击全球流行病。Vespa团队(https://vespa.ai/) 正在发布一个基于数据集的搜索应用程序(https://cord19.vespa.ai/)。
  • 文本搜索的客观标准
  • 结果
    • 术语匹配
      • 语义搜索
      • 注意
      • 结论
      相关产品与服务
      NLP 服务
      NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档