专栏首页arxiv.org翻译专栏一步高效合成数据(CS CR)
原创

一步高效合成数据(CS CR)

合成数据适用于许多参数模型,本文中我们提出了一种通用的合成数据生成方法,该方法具有渐近有效的汇总统计,易于实现且计算效率高。我们的方法既可以用来构造保留了摘要统计信息而不使用正式的隐私方法的部分合成数据集,也可以用来构造在差分隐私(DP)有力保障下的完全合成的数据,构造这两种数据集都会生成渐近有效的摘要统计信息。当我们的理论处理渐近性问题时,我们通过仿真证明了本理论在小样本中也具有很高的实用性。值得一提的是,我们:

1)将我们的方法应用于Burr分布,使用Kolmogorov-Smirnov检验评估参数和分布特性;

2)在基于车祸数据集的对数线性模型上演示了我们方法的性能;

3)使用了自定义的拉普拉斯机制。

原文题目:One Step to Efficient Synthetic Data

原文:We propose a general method of producing synthetic data, which is widely applicable for parametric models, has asymptotically efficient summary statistics, and is both easily implemented and highly computationally efficient. Our approach allows for the construction of both partially synthetic datasets, which preserve the summary statistics without formal privacy methods, as well as fully synthetic data which satisfy the strong guarantee of differential privacy (DP), both with asymptotically efficient summary statistics. While our theory deals with asymptotics, we demonstrate through simulations that our approach offers high utility in small samples as well. In particular we 1) apply our method to the Burr distribution, evaluating the parameter estimates as well as distributional properties with the Kolmogorov-Smirnov test, 2) demonstrate the performance of our mechanism on a log-linear model based on a car accident dataset, and 3) produce DP synthetic data for the beta distribution using a customized Laplace mechanism.

原文作者:Jordan Awan, Zhanrui Cai

原文链接:https://arxiv.org/abs/2006.02397

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 天机阁——全链路跟踪系统设计与实现

    小时光茶社 传说中天机阁里有一台掌控世间一切的机器,万物运行由此产生。本文的“天机阁”是一个基于链路跟踪的监控系统,后台开发人员能够通过“天机阁”洞察“天机”...

    小时光
  • zipkin——分布式性能追踪日志系统

    包含组件 collector 收集器 storage 存储 api 查询 webUI 界面 ZipKin数据模型 Tr...

    黑洞代码
  • 基于算法共轭梯度法的检点恢复方法CS Distributed, Parallel, and Cluster Computing

    随着计算机达到外星量级和更高的水平,故障的发生率将会增加。这个问题的解决方案是一个积极的研究课题。我们专注于使先决共轭梯度(PCG)求解器对节点故障具有弹性的策...

    Rosalie
  • 基于硬件防御恶意软件的检测器抵御对抗性攻击(CS CR)

    在物联网时代,过去十年来,恶意软件呈指数级增长。传统反病毒软件对现代复杂的恶意软件的打击效果不佳。为了应对这一挑战,研究人员提出了利用硬件辅助的恶意软件检测方案...

    刘持诚
  • 实用且可验证的电子分类(CS CR)

    由于计算量大的验证(与注册阶段的持续时间T成线性关系)或易于拒绝服务,因此现有的可验证电子分类系统不切实际。 基于可验证的延迟功能的改进,我们提出了一种可验证的...

    小童
  • Spring Cloud 系列之链路监控 Sleuth - Zipkin

      在微服务框架中,一个由客户端发起的请求在后端系统中会经过多个不同的的服务节点调用来协同产生最后的请求结果,每一个前段请求都会形成一条复杂的分布式服务调用链路...

    Demo_Null
  • 新版本SpringCloud sleuth整合zipkin

    Spring Cloud Sleuth为Spring Cloud实现了分布式跟踪解决方案。

    海向
  • 微服务链路追踪原理

    在微服务横行的时代,服务化思维逐渐成为了程序员的基本思维模式,但是,由于绝大部分项目只是一味地增加服务,并没有对其妥善管理,当接口出现问题时,很难从错综复杂的服...

    平也
  • CTAB-GAN:高效且可行的表格数据合成

    虽然数据共享对于知识发展至关重要,但遗憾的是,隐私问题和严格的监管(例如欧洲通用数据保护条例 GDPR)限制了其充分发挥作用。合成表格数据作为一种替代方案出现,...

    deephub
  • 跟我学Spring Cloud(Finchley版)-24-Spring Cloud Sleuth入门

    经过前文讲述,我们的微服务架构日趋完善,已可使用Spring Cloud构建一个非常健壮的系统!

    用户1516716
  • 刚进美团,就被各种Code Review,真的有必要吗?

    好好学java
  • 业余草 SpringCloud教程 | 第九篇: 服务链路追踪(Spring Cloud Sleuth)(Finchley版本)

    这篇文章主要讲述服务追踪组件zipkin,Spring Cloud Sleuth集成了zipkin组件。

    业余草
  • MPLS TE可靠性及其案例

    对于一条建立好的MPLS TE隧道而言,当链路属性或隧道属性变化导致有了更优的路径时,原隧道要按照新的属性重新建立CR-LSP,并在建成后将流量切换到新的CR-...

    全栈程序员站长
  • R语言实现广义加模型

    首先是确定一个数据集属于什么分布,如正态分布,二项分布等,然后是线性组合,通过添加参数使得数据集满足一个线性方程。最后就是创建连接函数,也就是把我们的数据集生成...

    一粒沙
  • 汇编笔记

    1)、MOV BL, CX: 可行但mov的源比目标长度大,会导致数据丢失。警告:Operand types must match

    饶文津
  • 【专业技术】图像格式转化规律探秘

    存在问题: 搞视频编解码的童鞋对此深刻理解,但是好多小伙伴在andriod或其他嵌入上做启动动画时候图像是如何转化存在一定的疑惑。 解决方案: 针对这些问题我们...

    程序员互动联盟
  • PostgreSQL 代价模型

    对于ORACLE ,SQL SERVER 这样的数据库的代价模型一般是不会透露给外部的,所以我们看到一些COST 也是一头雾水,摸不清头脑。

    AustinDatabases
  • [菜鸟SpringCloud实战入门]第十章:分布式链路跟踪 Sleuth和Zipkin

    欢迎来到菜鸟SpringCloud实战入门系列(SpringCloudForNoob),该系列通过层层递进的实战视角,来一步步学习和理解SpringCloud。

    蛮三刀酱
  • Sleuth--链路追踪

    在大型系统的微服务化构建中,一个系统被拆分成了许多模块。这些模块负责不同的功能,组合成系 统,最终可以提供丰富的功能。在这种架构中,一次请求往往需要涉及到多个服...

    IT小马哥

扫码关注云+社区

领取腾讯云代金券