专栏首页arxiv.org翻译专栏不要错过森林-整体方法来解释嵌套数据的遗漏答案(扩展版本)(CS DB)

不要错过森林-整体方法来解释嵌套数据的遗漏答案(扩展版本)(CS DB)

对于缺少答案的基于查询的解释,确定查询的哪些运算符是导致未能返回感兴趣的缺少答案的原因。事实证明,这种类型的解释在包括调试复杂的分析查询在内的各种情况下都是有用的。这样的查询在诸如Apache Spark之类的大数据系统中很常见。我们提出了一种新颖的方法来产生基于查询的解释。我们的方法是第一个支持嵌套数据并考虑将修改数据的架构和结构(例如嵌套和投影)的运算符作为缺少答案的潜在原因的方法。为了有效地计算解释,我们提出了一种启发式算法,该算法应用了两种新颖的技术:(i)推理查询的多个方案备选方案;(ii)在每个步骤中重新验证中间结果是否可导致缺少答案。通过在Spark上实现我们的方法,我们证明了它是第一个可扩展至大型数据集的方法,并且它经常会找到现有技术无法识别的解释。

原文题目:To not miss the forest for the trees -- a holistic approach for explaining missing answers over nested data (extended version)

原文:Query-based explanations for missing answers identify which operators of a query are responsible for the failure to return a missing answer of interest. This type of explanations has proven to be useful in a variety of contexts including debugging of complex analytical queries. Such queries are frequent in big data systems such as Apache Spark. We present a novel approach for producing query-based explanations. Our approach is the first to support nested data and to consider operators that modify the schema and structure of the data (e.g., nesting and projections) as potential causes of missing answers. To efficiently compute explanations, we propose a heuristic algorithm that applies two novel techniques: (i) reasoning about multiple schema alternatives for a query and (ii) re-validating at each step whether an intermediate result can contribute to the missing answer. Using an implementation of our approach on Spark, we demonstrate that it is the first to scale to large datasets and that it often finds explanations that existing techniques fail to identify.

原文链接:https://arxiv.org/abs/2103.07561

原文作者:Ralf Diestelkaemper, Seokki Lee, Melanie Herschel, Boris Glavic

我来说两句

0 条评论
登录 后参与评论

相关文章

  • SBB-大尺度上中国森林生态系统真菌多样性

    40个样点,326个样本,覆盖中国5个气候区。研究大尺度上中国森林生态系统真菌多样性在不同纬度条件下的差异,并比较了植物和土壤真菌共生模式。

    Listenlii-生物信息知识分享
  • 猿辅导:笔试选择题,你尽管蒙,能蒙对算我输

    大家好,上周的时候承志更新了一篇猿辅导笔试题攻略(上),今天我们继续来看这篇笔试题中的其他题目。

    TechFlow-承志
  • 专属| SQLite漏洞影响Chrome

    据流行的系统清理应用程序 CCleaner 用户称:自开发商 Piriform 被 Avast 收购之后,CCleaner 的安装程序,就会在未经许可的情况下安...

    漏斗社区
  • 科技骗局8:1930年代李森科事件用权力扭曲了科学

    64人类科技史、金融史、战争史上不乏骗局,从古代到今天、估计未来一直都会有。虚假的证据、论文、技术、产品层出不穷,许多名人、学者、专家深陷“造假门”、“欺骗门...

    秦陇纪
  • 深度 | 周志华:“深”为什么重要,以及还有什么深的网络

    8 月 10 日至 16 日,IJCAI 2019 在中国澳门隆重召开。14 日下午,南京大学周志华教授进行特邀大会演讲,演讲主题是《Deep Learning...

    AI科技评论
  • 周志华:“深”为什么重要,以及还有什么深的网络

    IJCAI 2019 在中国澳门隆重召开,南京大学周志华教授进行特邀大会演讲,演讲主题是《Deep Learning: Why deep and is it o...

    Datawhale
  • 面试了8家公司,他们问了我这些机器学习题目......

    用户1737318
  • 在图像中标注新的对象

    给定一个图像,人类可以很容易地推断其中的显着实体,并有效地描述场景,如对象所在的位置(在森林或厨房?),对象具有什么属性(棕色或白色?),更重要的是,物体如何与...

    人工智能资讯小编
  • Python 实现随机森林预测宽带客户离网(附源数据与代码)

    组合算法也叫集成学习,在金融行业或非图像识别领域,效果有时甚至比深度学习还要好。能够理解基本原理并将代码用于实际的业务案例是本文的目标,本文将详细介绍如何利用P...

    萝 卜
  • 理解随机森林:基于Python的实现和解释

    感谢 Scikit-Learn 这样的库,让我们现在可以非常轻松地使用 Python 实现任何机器学习算法。事实上操作起来很简单,我们往往无需了解任何有关模型内...

    机器之心
  • 精品丨CALCULATE——上下文扩展

    之前关于CALCULATE的函数写过很多期,白茶在梳理知识点的时候,发现漏掉了一个需要描述的地方,本期将会对这个遗漏的地方进行补充说明。

    PowerBI丨白茶
  • 强悍!TensorFlow 开源 TF-DF 决策森林库

    在人工智能发展史上,各类算法可谓层出不穷。近十几年来,深层神经网络的发展在机器学习领域取得了显著进展。通过构建分层或「深层」结构,模型能够在有监督或无监督的环境...

    Python数据科学
  • 原理+代码|深入浅出Python随机森林预测实战

    组合算法也叫集成学习,在金融行业或非图像识别领域,效果有时甚至比深度学习还要好。能够理解基本原理并将代码用于实际的业务案例是本文的目标,本文将详细介绍如何利用P...

    刘早起
  • 最喜欢随机森林?周志华团队DF21后,TensorFlow开源决策森林库TF-DF

    在人工智能发展史上,各类算法可谓层出不穷。近十几年来,深层神经网络的发展在机器学习领域取得了显著进展。通过构建分层或「深层」结构,模型能够在有监督或无监督的环境...

    机器之心
  • B端产品调研方法论

    那么接下来我给大家讲解一个梳理B端产品切实可行的方法,来帮助你们完成B端产品的设计。

    物流IT圈
  • 52道机器学习常见面试题目

    有监督学习:对具有概念标记(分类)的训练样本进行学习,以尽可能对训练样本集外的数据进行标记(分类)预测。这里,所有的标记(分类)是已知的。因此,训练样本的岐义性...

    1480
  • 如何选择Microsoft Azure机器学习算法

    编者按:机器学习的算法很多,如何选择一直是初学者的一个痛点。本文给出了机器学习算法选择的方法和实例,不仅适用于Microsoft Azure框架,同样可以应用于...

    小莹莹
  • 独家 | 一文读懂随机森林的解释和实现(附python代码)

    本文从单棵决策树讲起,然后逐步解释了随机森林的工作原理,并使用sklearn中的随机森林对某个真实数据集进行预测。

    数据派THU
  • 盘点|最实用的机器学习算法优缺点分析,没有比这篇说得更好了

    推荐理由 对于机器学习算法的盘点,网上屡见不鲜。但目前,还没人能结合使用场景来把问题说明白,而这一点正是本文的目的所在。 在文章中,作者将结合他的实际经验...

    AI科技大本营

扫码关注云+社区

领取腾讯云代金券