专栏首页arxiv.org翻译专栏基于文本的数据库推理(CS)

基于文本的数据库推理(CS)

神经模型在回答自然语言文本的查询时表现出了令人印象深刻的性能提高。但是,现有的工作不能支持数据库查询,如“列出所有20世纪出生的女运动员”,这需要对相关事实集进行推理,进行连接、过滤、聚合等操作。我们指出,尽管最先进的变压器模型在小型数据库中表现得很好,但它们在处理嘈杂数据、数字操作和聚集事实的查询方面存在局限性。我们提出了一个模块化的体系结构来回答这些数据库风格的查询,从文本到多个范围,并大规模地聚合这些查询。我们使用WikiNLDB评估体系结构,这是一种用于研究此类查询的新数据集。我们的体系结构可以扩展到包含数千个事实的数据库,而当代的模型则受限于可以编码的事实的数量。在小型数据库的直接比较中,我们的方法将总体答案的正确率从85%提高到90%。在较大的数据库上,我们的方法保持其准确性,而变压器基线不能编码上下文。

原文题目:Database Reasoning Over Text

原文:Neural models have shown impressive performance gains in answering queries from natural language text. However, existing works are unable to support database queries, such as "List/Count all female athletes who were born in 20th century", which require reasoning over sets of relevant facts with operations such as join, filtering and aggregation. We show that while state-of-the-art transformer models perform very well for small databases, they exhibit limitations in processing noisy data, numerical operations, and queries that aggregate facts. We propose a modular architecture to answer these database-style queries over multiple spans from text and aggregating these at scale. We evaluate the architecture using WikiNLDB, a novel dataset for exploring such queries. Our architecture scales to databases containing thousands of facts whereas contemporary models are limited by how many facts can be encoded. In direct comparison on small databases, our approach increases overall answer accuracy from 85% to 90%. On larger databases, our approach retains its accuracy whereas transformer baselines could not encode the context.

原文链接:https://arxiv.org/abs/2106.01074

原文作者:James Thorne,Majid Yazdani,Marzieh Saeidi,Fabrizio Silvestri,Sebastian Riedel,Alon Halevy

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 基于本体的工业数据管理平台(CS DB)

    关系存储和noSQL存储是为了快速处理结构稳定的大数据集而开发的,而本体则用于处理有限大小的复杂和动态信息集。在工业应用中,通常需要维护从各种来源合并的大型数据...

    用户8352111
  • Cancer-Mine: 基于文本挖掘的癌症数据库

    CancerMine (http://bionlp.bcgsc.ca/cancermine/) 是一个基于文本挖掘的有关于驱动基因,致癌基因和抑癌基因数据库。2...

    生信编程日常
  • 基于本地文件系统的列式数据库-DuckDB

    这两天发现了一款有趣的数据库DuckDB,它的设计思路来源于sqlite,但是与sqlite不同的是,sqlite是行式数据库,而DuckDB是列式数据库。除此...

    哒呵呵
  • 知识库中基于案例的推理的简单方法(CS CL)

    本文提出了一种在知识图(KGs)中进行推理的简单却准确的方法,该方法需要emph{未经训练},并且使人想起经典人工智能(AI)中基于案例的推理。考虑在给定源实体...

    用户7454091
  • 数据库内功心法:数据库基本理论

    原文:http://www.java520.cn/%E6%95%B0%E6%8D%AE%E5%BA%93/148.html

    李红
  • MySQL数据库(二):基本管理

    安装环境: 操作系统版本:RHEL 6.5 安装版本:MYSQL 5.1 升级版本:MYSQL 5.6 一、默认库介绍 安装完成之后,mysql会自动创...

    行 者
  • 数据库的基本构成和原理

    数据库包含的种类: 广义数据库:Oracle,Mysql,PostgreSQL,Redis,Hbase 应用场景 比如说,电商网站:用户账号信息,商品信息...

    运维小白
  • 基于Python的语料库数据处理(二)

    语料库处理中,Python语言的字符串运算主要是将词语、句子连接起来,或者将词语、句子重复若干次,如:string1+string2(两个字符串相加),stri...

    陆勤_数据人网
  • 基于Python的语料库数据处理(七)

    有时候我们不需要返回全部检索内容,而需要对检索的内容分几个部分回,这时候就需要用到分组(grouping)。我们可以将需要分开检索返回的部分用圆括弧括起来。比如...

    陆勤_数据人网

扫码关注云+社区

领取腾讯云代金券