专栏首页arxiv.org翻译专栏高维数据的一致且灵活的选择性估计(cs.LG)
原创

高维数据的一致且灵活的选择性估计(cs.LG)

选择性估计旨在估计满足选择标准的数据库对象的数量。准确高效地回答这个问题对于密度估计、异常值检测、查询优化和数据集成等应用至关重要。估计问题对于大规模高维数据尤其具有挑战性,这是由于以下原因导致的:维度灾难,使估计器保持一致的需求(举例为:根据非减小的阈值进行选择)以及不同查询之间的选择标准差异较大。我们提出了一种新的基于深度学习的模型,该模型将查询依赖的分段线性函数作为估计器。我们设计了一种新的模型体系结构,使模型灵活适应任何选择标准。为了提高大型数据集的准确性,我们建议将数据集拆分为多个无交集分区,并在每个分区上构建一个本地模型。我们在真实数据集上进行实验,以展示提出的模型具有一致性并且在准确性和效率方面明显优于世界先进水平

原文标题:Consistent and Flexible Selectivity Estimation for High-dimensional Data

原文:Selectivity estimation aims at estimating the number of database objects that satisfy a selection criterion. Answering this problem accurately and efficiently is essential to applications, such as density estimation, outlier detection, query optimization, and data integration. The estimation problem is especially challenging for large-scale high-dimensional data due to the curse of dimensionality, the need to make the estimator consistent (i.e., the selectivity is non-decreasing w.r.t. the threshold), and the large variance of selectivity across different queries. We propose a new deep learning-based model that learns a query dependent piece-wise linear function as the estimator. We design a novel model architecture so that the model is flexible to fit any selection criterion. To improve the accuracy for large datasets, we propose to divide the dataset into multiple disjoint partitions and build a local model on each of them. We perform experiments on real datasets and show that the proposed model guarantees the consistency and significantly outperforms state-of-the-art models in terms of both accuracy and efficiency.

原文作者:Yaoshu Wang, Chuan Xiao, Jianbin Qin, Rui Mao, Onizuka Makoto, Wei Wang, Rui Zhang

原文地址:http://arxiv.org/abs/2005.09908

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 针对全球健康设计的人工智能:从医疗保健数字化转型十年中学习知识(cs.CY)

    生活在资源有限的环境中的人的健康需求是机器学习 (ML) 和医疗保健交汇领域中一个不容忽视和研究不足的部分。虽然近年来,随着深度学习的进步,ML在卫生保健中的使...

    Donuts_choco
  • 在存在累计前景博弈者的博弈论下的黑盒策略与平衡(cs.GT)

    偏好关系的中间属性规定了两个彩票的可能性混合应该在这两个彩票的偏好之间。它是独立属性的一种弱化形式,并且因此满足于期望效应理论(EUT)。实验中对于中间属性的违...

    Donuts_choco
  • 用于实时人脸识别的新型分布式近似化近邻算法(cs.CV)

    如今人脸识别,更普遍推广开来就是图像识别,在现代世界中具有许多应用,并广泛应用于我们的日常工作中。本文提出了一种新型的分布式近邻(ANN)方法,用于包含大量类的...

    Donuts_choco
  • 使用多次换道评估车辆达到近期目标状态的可能性(CS RO)

    本文提出了一个模型,该模型基于与交通流量和驾驶行为相对应的参数来估计达到近期目标状态的可能性。近年来,开发准确的驾驶员行为模型和车道变化控制算法已成为自动驾驶和...

    时代在召唤
  • HTML4.01规范-文本(3)

    Note. The following section is an informative description of the behavior of som...

    py3study
  • Duke@coursera 数据分析与统计推断 unit2 probability and distributions

    In a random process we know what outcomes couldhappen, but we don't know which p...

    统计学家
  • 【论文推荐】最新5篇图像描述生成(Image Caption)相关论文—情感、注意力机制、遥感图像、序列到序列、深度神经结构

    【导读】专知内容组整理了最近五篇图像描述生成(Image Caption)相关文章,为大家进行介绍,欢迎查看! 1. Image Captioning at W...

    WZEARW
  • Why JavaScript is Compulsory for Modern Web Development?

    Why JavaScript is essential for modern web development? JavaScript has had a maj...

    用户4822892
  • 【每日一题】问题 1111: Cylinder

    Using a sheet of paper and scissors, you can cut out two faces to form a cylinde...

    编程范 源代码公司
  • CodeForces 24D Broken robot (概率DP)

    D. Broken robot time limit per test 2 seconds memory limit per test 256 me...

    ShenduCC

扫码关注云+社区

领取腾讯云代金券