专栏首页arxiv.org翻译专栏Repile:层次数据的聚合级解释(CS DB)

Repile:层次数据的聚合级解释(CS DB)

最新的查询解释系统通过提出描述输入记录的谓词来帮助用户理解聚合结果中的异常,如果这些输入记录被删除,则可以解决这些异常。但是,用户可能很难理解如何选择谓​​词,并且这些方法仅限于可以通过删除解决的错误。相反,数据错误可能是由于逐组错误引起的,例如记录丢失或系统值错误。本文介绍了针对层次数据的解释系统Repile。给定异常聚合查询结果,Repile建议使用下一个向下钻取属性,并根据修复组统计信息的范围将其排序为预期值,从而解决异常。Repile有效地训练一个多层次的模型,利用数据的层次结构来估计期望值,并使用特征矩阵的分解表示来消除由于数据的层次结构造成的冗余。我们进一步扩展模型培训,以支持分解数据,并开发一组优化,利用数据的层次结构。与基于Matlab的实现相比,Repile减少了6倍以上的端到端运行时,可正确识别John Hopkin的COVID-19数据中的21/30数据错误,并在使用数据和哥伦比亚大学金融仪器部门团队的研究人员的一项用户研究中正确地解决了20/22的投诉。

原文题目:Reptile: Aggregation-level Explanations for Hierarchical Data

原文:Recent query explanation systems help users understand anomalies in aggregation results by proposing predicates that describe input records that, if deleted, would resolve the anomalies. However, it can be difficult for users to understand how a predicate was chosen, and these approaches are limited to errors that can be resolved through deletion. In contrast, data errors may be due to group-wise errors, such as missing records or systematic value errors. This paper presents Reptile, an explanation system for hierarchical data. Given an anomalous aggregate query result, Reptile recommends the next drill-down attribute,and ranks the drill-down groups based on the extent repairing the group's statistics to its expected values resolves the anomaly. Reptile efficiently trains a multi-level model that leverages the data's hierarchy to estimate the expected values, and uses a factorised representation of the feature matrix to remove redundancies due to the data's hierarchical structure. We further extend model training to support factorised data, and develop a suite of optimizations that leverage the data's hierarchical structure. Reptile reduces end-to-end runtimes by more than 6 times compared to a Matlab-based implementation, correctly identifies 21/30 data errors in John Hopkin's COVID-19 data, and correctly resolves 20/22 complaints in a user study using data and researchers from Columbia University's Financial Instruments Sector Team.

https://arxiv.org/abs/2103.07037

https://arxiv.org/abs/2103.07037

原文链接:https://arxiv.org/abs/2103.07037

原文作者:Zezhou Huang, Eugene Wu

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Go语言技巧 - 7.【GORM实战剖析】基本用法和原理解析

    GORM库作为Go语言最受欢迎的ORM框架,提供了非常丰富的功能,大家可以通过阅读中文官网的相关介绍。

    junedayday
  • 8086汇编语言之代码分段

    以上代码存在一个问题, 由于数据是在代码段中定义, cpu默认将数据识别为代码, 将导致数据不可用,那么解决办法为,增加入口标记:

    乱码三千
  • 神经网络图的简介(基本概念,DeepWalk以及GraphSage算法)

    近来,图神经网络(GNN)在各个领域广受关注,比如社交网络,知识图谱,推荐系统以及生命科学。GNN在对图节点之间依赖关系进行建模的强大功能使得与图分析相关的研究...

    AI研习社
  • 某大厂游测开懵逼面试精选四题

    TCP的可靠性体现在传输数据之前,三次握手建立连接(四次挥手释放连接),并且在数据传递时,有确认、窗口、重传、拥塞控制机制,数据传完之后,断开连接用来节省系统资...

    测试小兵
  • C/S和B/S两种架构的概念、区别和联系

    这篇文章主要介绍了C/S和B/S两种架构的概念、区别和联系,本位还同时讲解了主流的Web程序应用平台、Web工作原理等内容,需要的朋友可以参考下

    习惯说一说
  • UC Berkeley EECS系是如何培养计算机学生的

    加州大学伯克利分校电子工程和计算机科学系(EECS)是世界知名的院系,计算机领域在2020 USNews排名第一[1]。EECS的使命是教育、创新和服务社会。自...

    陆道峰
  • 亮剑.NET的系列文章之初识三层架构

    最近在学习三层结构,通过上网找各种资料,初步学习了一些三层的知识跟大家分享一下。先跟大家介绍一下三层的来源,为什么叫三层?

    程序猿小亮
  • ORM查询语言(OQL)简介--实例篇

    相关文章内容索引: ORM查询语言(OQL)简介--概念篇 ORM查询语言(OQL)简介--实例篇 ORM查询语言(OQL)简介--高级篇:脱胎换骨 ORM查询...

    用户1177503
  • C/S和B/S两种架构区别与优缺点分析

    C/S和B/S,是再普通不过的两种软件架构方式,都可以进行同样的业务处理,甚至也可以用相同的方式实现共同的逻辑。既然如此,为何还要区分彼此呢?那我们就来看看二者...

    IT大咖说
  • 汇编语言全梳理(精简版)

    内存地址由 段地址:偏移地址 决定,8086 选择 ds 段寄存器作为默认的段地址

    全栈程序员站长
  • 探寻 “学术宇宙” | 计算机领域会议和期刊星系结构的全方位揭示

    前面推文简要介绍了上海交通大学Acemap团队对Nature杂志引用关系数据可视化与展示的过程。到此,我们已经对超大规模学术网络可视化过程有了初步的了解。然而,...

    新智元
  • 奖学金评分系统(系统分析与设计版与Delphi实现代码)

    在奖学金评比过程中,学生综合测评是学校普遍采用的评比手段。对学生实施综合素质测评的目的在于正确评价学生的综合素质,为评奖学金提供依据,实现学生教育管理工作的标准...

    用户1621453
  • 基础篇-服务器工作实现的浅析

    对于一个前端开发的人员来说,了解服务器的基础知识,个人觉得是非常必要的,于是就有一个这篇侧重于Java的服务器相关知识的文章,只是简单介绍对于我也是一个拓展。

    進无尽
  • 16位汇编第三讲 分段存储管理思想

          内存分段 一丶分段(汇编指令分段) 1.为什么分段?   因为分段是为了更好的管理数据和代码,就好比C语言为什么会有内存4区一样,否则汇编代码都写...

    IBinary
  • 汇编笔记

    1)、MOV BL, CX: 可行但mov的源比目标长度大,会导致数据丢失。警告:Operand types must match

    饶文津
  • 2021年最新PHP 面试、笔试题汇总(三)

    四十九、找出数组中出现一次的元素。10 10 11 11 12 13 12 13 16 只出现一次的数字。要求时间复杂度尽可能低

    码农编程进阶笔记
  • 企业是如何选择技术栈来做离线数仓

    最近在跟一位粉丝聊天,聊起来了做离线数仓时该用那些技术栈。于是根据我的经验和参考一些资料于就有本篇文章。在这里我会分享三个案例,仅供参考。

    大数据老哥
  • MongoDB常用工具和集合方法

    菲宇
  • 译《领域驱动设计之PHP实现》架构风格(中)

    视图层可以从模型层和/或者控制层接收数据,也能向其发送数据。它的主要目的是向用户UI层呈现模型,同时在模型每次更新后刷新UI的呈现形式。一般来说,视图层接收的对...

    猿哥

扫码关注云+社区

领取腾讯云代金券