专栏首页arxiv.org翻译专栏在基数和完整性约束下综合链接数据(CS DB)

在基数和完整性约束下综合链接数据(CS DB)

从测试应用程序到基准测试到隐私保护,合成数据的生成在多个方面都是有用的。受到基数约束(CC)和完整性约束(IC)约束的关系之间的联系的生成是此问题的重要方面。给定两个关系的实例,其中一个对另一个具有外键依赖关系,并且缺少其外键(FK)值,并且存在两种类型的约束:(1)适用于联接视图的CC和(2)适用的IC对于缺少FK值的表,我们的目标是估算缺少的FK值,以便满足约束条件。我们基于声明性CC和IC为问题提供了一个新颖的框架。我们进一步证明了该问题是NP问题,并提出了一种新颖的两相解决方案,以保证IC的满意度。第一阶段产生了仅考虑CC的中间解决方案,并依赖于基于CC类型的混合方法。对于一种类型,问题被建模为整数线性程序。对于其他人,我们描述了一种有效而准确的解决方案。然后,我们将两种解决方案结合在一起。第二阶段通过合并IC来增强此解决方案,并使用冲突超图的颜色来推断FK列的值。我们广泛的实验研究表明,当数据和约束数量增加时,我们的解决方案可以很好地扩展。我们进一步表明,我们的解决方案为CC保持了较低的错误率。

原文题目:Synthesizing Linked Data Under Cardinality and Integrity Constraints

原文:The generation of synthetic data is useful in multiple aspects, from testing applications to benchmarking to privacy preservation. Generating the links between relations, subject to cardinality constraints (CCs) and integrity constraints (ICs) is an important aspect of this problem. Given instances of two relations, where one has a foreign key dependence on the other and is missing its foreign key (FK) values, and two types of constraints: (1) CCs that apply to the join view and (2) ICs that apply to the table with missing FK values, our goal is to impute the missing FK values such that the constraints are satisfied. We provide a novel framework for the problem based on declarative CCs and ICs. We further show that the problem is NP-hard and propose a novel two-phase solution that guarantees the satisfaction of the ICs. Phase I yields an intermediate solution accounting for the CCs alone, and relies on a hybrid approach based on CC types. For one type, the problem is modeled as an Integer Linear Program. For the others, we describe an efficient and accurate solution. We then combine the two solutions. Phase II augments this solution by incorporating the ICs and uses a coloring of the conflict hypergraph to infer the values of the FK column. Our extensive experimental study shows that our solution scales well when the data and number of constraints increases. We further show that our solution maintains low error rates for the CCs.

原文链接:https://arxiv.org/abs/2103.14435

原文作者:Amir Gilad, Shweta Patwa, Ashwin Machanavajjhala

我来说两句

0 条评论
登录 后参与评论

相关文章

  • SketchGraphs:计算机辅助设计中关系几何建模的大型数据集(CS)

    参数化计算机辅助设计(CAD)是机械工程物理设计的主流范式。与关系几何不同的是,参数化CAD模型从二维草图开始,由几何图元(例如线段、圆弧)和它们之间的明确约束...

    N乳酸菌
  • [解读REST] 4.基于网络应用的架构风格

    衔接上文[解读REST] 3.基于网络应用的架构,上文介绍了一组自洽的术语来描述和解释软件架构;如何利用架构属性评估一个架构风格;以及对于基于网络的应用架构来说...

    blackheart
  • 开发必备-数据库必备

    数据库:database 存储数据的仓库。高效存储和处理数据的介质(介质主要是两种:磁盘和内存)

    孙寅
  • C#分部类型解析

       等待着元宵节的到来,过完元宵,这个年也算是过完了,也得开始出去挣钱了,过年回家感觉每个人都觉得很牛,只有自己太渣,为了避免年底再出现这样尴尬的局面,还是需...

    彭泽0902
  • 《一个操作系统的实现》笔记(5)--内核雏形

    felix
  • 奖学金评分系统(系统分析与设计版与Delphi实现代码)

    在奖学金评比过程中,学生综合测评是学校普遍采用的评比手段。对学生实施综合素质测评的目的在于正确评价学生的综合素质,为评奖学金提供依据,实现学生教育管理工作的标准...

    用户1621453
  • 【秋招备战计划第二弹】最后俩月能提升的知识清单

    又是一个 比较庸俗的标题做开头 这一期 分享一下 秋招要准备的必备知识点 当然 仅仅是站在我自己 春招的面试经验上 得知的 看看自己哪里还有疏漏的 可以尽...

    韩旭051
  • GreenDao 工具类 --- 使用 Json 快速生成 Bean、表及其结构,"炒鸡"快!

    作者:林冠宏 / 指尖下的幽灵 腾讯云+社区:https://cloud.tencent.com/developer/user/1148436/activi...

    林冠宏-指尖下的幽灵
  • 数据库原理与应用【实验报告】

    实验一 数据库管理系统软件的使用 一、实验目的 (1)认识几种常见的数据库管理系统,熟悉它们的使用界面; (2)熟练掌握建立数据库和表,向数据库输入数据、修改数...

    苦咖啡
  • MongoDB 是什么 ? 能干嘛 ?

    最近在回顾mongodb的相关知识,输出一篇文章做为MongoDB知识点的总结。 总结的目的在于回顾MongoDB的相关知识点,明确MongoDB在企业级应用中...

    芋道源码
  • 系统架构师论文-论混合软件架构设计

    cwl_java
  • 3分钟短文:Laravel模型OR查询避坑指南

    laravel模型提供了query builder对象用于组装查询条件并生成PSD查询语句,从而与数据库对话。如果使用and约束条件,这并不难写,无非是 A 成...

    程序员小助手
  • 搭建远程教育平台时,所用到的体系结构(上)

    从目前的网路分布式应用系统发展过程中,有两条不同但并行的系统结构正在持续应用,这两种系统结构常被应用在诸如搭建远程教育平台、远程会议平台一类的服务中。一种路线是...

    万岳教育系统
  • CVPR2020 Oral | 动态多尺度图表达3D人体骨架运动,实现精准预测效果超SOTA

    现有的基于3D人体骨架的运动预测方法往往不考虑身体不同部位之间的关联关系,或是仅考虑单一尺度的关节点关系。

    新智元
  • CVPR2020 Oral | 动态多尺度图表达3D人体骨架运动,实现精准预测效果超SOTA

    现有的基于3D人体骨架的运动预测方法往往不考虑身体不同部位之间的关联关系,或是仅考虑单一尺度的关节点关系。

    代码医生工作室
  • 16位汇编第三讲 分段存储管理思想

          内存分段 一丶分段(汇编指令分段) 1.为什么分段?   因为分段是为了更好的管理数据和代码,就好比C语言为什么会有内存4区一样,否则汇编代码都写...

    IBinary
  • 【vivado学习六】 Vivado综合

    在 Flow Navigator 中点击设置, 然后选择Synthesis,或者 selectFlow > Settings > Synthesis Sett...

    FPGA开源工作室
  • 数据库的一点理解

    整个数据库系统包括数据,数据库,数据库管理系统。数据库管理系统是位于操作系统和应用程序开发工具之间的的一层,可以由数据库管理员来对数据库管理系统和数据库进行操作...

    HUBU生信
  • 数据库复习题 考试题库(简答题)

    基本表是实际存储在数据库中的二维表,它是本身独立存在的表,在SQL中一个关系就对应一个表。

    Meng小羽

扫码关注云+社区

领取腾讯云代金券