专栏首页AI研习社学界 | 生成的图像数据集效果不好?也许你需要考虑内容分布的差异

学界 | 生成的图像数据集效果不好?也许你需要考虑内容分布的差异

AI 科技评论按

对生成数据集和真实数据集差异的探究目前也有不少成果,比如学习不同任务通用的图像特征、学习图像风格迁移等,这样可以让生成数据集中的图像看上去更像真实图像。不过这篇论文的作者们认为,图像风格的差异其实只是很小的因素,更重要的差异在于图像内容的差异,而且生成的图像应当对新的任务有帮助。以往的图像生成方法只能覆盖有限的场景、有限的物体、有限的变化,对真实世界物体的多变性和属性的分布刻画不足;而且作者们提出,以KITTI数据集为例,它的数据是在德国采集的,但也许别的研究人员使用这个数据集训练的系统是想要在日本使用的,场景内容一定会有所不同;甚至服务的任务目标也可以不同。这都是现有的数据生成方法没有解决,甚至没有考虑的方面。如果完全在虚拟环境中复制重现的话,资金和时间成本也都非常高昂。

Meta-Sim 生成的数据集能够缩小真实和生成数据之间的分布,而且能为下游任务进行优化

所以在论文《Meta-Sim: Learning to Generate Synthetic Datasets》中,作者们旗帜鲜明地提出,他们的研究目标是自动生成大规模标注数据集,而且这个数据集是对下游任务有帮助的(数据集中的内容分布能够符合目标使用场景)。作者们提出的方法是 Meta-Sim,它会学习到关于新合成的场景的生成式模型,而且可以通过一个图形引擎同步获得训练用的图形和对应的真实标签值。作者们接着用神经网络对数据集生成器进行参数化,使得它能够学会修改从场景内容分布概率中获得的场景结构图的属性,以便减小图像引擎输出的图像和目标数据集分布之间的差异。如果要模仿的真实数据集带有一个小的有标注验证集的话,作者们的方法还可以额外针对一个元目标进行优化,也就是说可以针对当前数据集任务的下游任务进行优化。实验表明,与人工设计的场景内容分布概率相比,他们提出的方法可以极大提高内容生成质量,可以在下游任务上定性以及定量地得到验证。更多具体细节可以参见论文原文。

这篇论文的作者们来自英伟达、多伦多大学、Vector 人工智能学院以及MIT。

项目主页参见: https: //nv-tlabs.github.io/meta-sim/

论文地址:https://arxiv.org/abs/1904.11621

本文分享自微信公众号 - AI研习社(okweiwu),作者:杨晓凡

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-04-30

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 数据增强:数据有限时如何使用深度学习 ? (续)

    这篇文章是对深度学习数据增强技术的全面回顾,具体到图像领域。这是《在有限的数据下如何使用深度学习》的第2部分。

    AI研习社
  • 亚马逊数据专家十年经验总结:成为数据科学家的关键四步

    编者按:本文作者 Karolis Urbonas,文章选自他个人博客。AI 研习社编译。 对于数据科学家这一职业,你了解多少? ——这是个被大公司追捧的职位,供...

    AI研习社
  • 用小数据集进行原型设计结果的小技巧

    本文作者是 Kanda 的机器学习工程师 Daniel Rothmann,他对一切具有变革性的事物都感兴趣,这里是他在和客户合作的过程中总结出的小数据处理方法。...

    AI研习社
  • 数据增强:数据有限时如何使用深度学习 ? (续)

    这篇文章是对深度学习数据增强技术的全面回顾,具体到图像领域。这是《在有限的数据下如何使用深度学习》的第2部分。

    AI研习社
  • 首席数据官应该讲什么“基本法”?

    这是一个人人都谈大数据的时代,尤其对很多企业来说,数据已是议事日程上的当务之急。首席数据官(CDO)这一新兴职位就在这样一种背景下越发壮大。但问题是,首席数据官...

    DT数据侠
  • 波音收购机器人制造商加强海洋监测,AI创企图普科技获千万美元融资 | 大数据24小时

    数据猿导读 基于大数据技术的个性化教学平台“狸米学习”完成5000万元融资;收购了机器人制造商 Liquid Robotics,波音公司将全面加强海洋侦查力度;...

    数据猿
  • 十张图看懂未来的大数据世界

    随着互联网云时代的来临,大数据与云计算就像一个硬币的正反两面,势必会影响到社会生活的方方面面,改变我们现有的规则和秩序。伴随着大数据与云计算产业的不断发展,未来...

    华章科技
  • 让大数据为你服务,你需要做些什么

    原文标题:What You Need To Do To Get Big Data To Work For You

    华章科技
  • Arxiv机器学习论文摘要10篇(2019-7-17)

    原文标题:Two-stage Optimization for Machine Learning Workflow

    Jarvis Cocker
  • 大数据市场乱象:用人工智能讲故事 低质虚假数据大量倒卖

    伴随着资本大量进入大数据行业,出现了创业公司估值过高的现象,好像只要打上大数据的标签,一些公司的估值动辄翻番好几倍。企业信用数据服务商上海斯睿德信息技术有限公司...

    BestSDK

扫码关注云+社区

领取腾讯云代金券